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当下 大 数据 技术 发 展 变化 日 新 月 异 ， 大 数据 应 用 已 经 遍及 工业 和 社会 生活 的 方方面面 ， 原 有 的 数据 管理 理论 体系 与 大 数据 产 
业 应 用 之 间 的 差距 日 益 加 大 ， 而 工业 界 对 于 大 数据 人 才 的 需求 却 急剧 增加 。 大 数据 专业 人 才 的 培养 是 新 一 轮 科技 较量 的 基础 ， 高 
等 院 校 承担 着 大 数据 人 才 培 养 的 重任 。 因 此 大 数据 相关 课程 将 逐渐 成 为 国内 高 校 计算 机 相关 专业 的 重要 课程 。 但 纵 观 大 数据 人 才 
培养 课程 体系 尚 不 尽 如 人 意 ， 多 是 已 有 课程 的 “ 冷 拼 盘 ”， 顶 多 是 加 点 “调料 ”， 原 材料 没有 新 鲜 感 。 现 阶段 无 论 多 么 新 多 么 好 
的 人 才 培 养 计划 ， 都 只 能 在 20 世 纪 六 七 十 年 代 编写 的 计算 机 知识 体系 上 施 教 ， 无 法 把 当下 大 数据 带 给 我 们 的 新 思维 、 新 知识 传 


导 给 学 生 。 


为 此 我 们 意识 到 ， 缺 少 基础 性 工作 和 原始 积累 ， 就 难以 培养 符合 工业 界 需要 的 大 数据 复合 型 和 交叉 型 人 才 。 因 此 急需 在 思维 
和 理念 方面 进行 转变 ， 为 现 有 的 课程 和 知识 体系 按 大 数据 应 用 需求 进行 延展 和 补充 ， 加 入 新 的 可 以 因材施教 的 知识 模块 。 我 们 户 
负 着 大 数据 时 代 知 识 更 新 的 使 命 ， 每 一 位 学 者 都 有 责任 和 义务 去 为 此 “ 增 砖 添 瓦 ”。 


在 此 背景 下 ， 我 们 策划 和 组 织 了 这 套 大 数据 管理 丛书 ， 希 望 能 够 培养 数据 思维 的 理念 ， 对 原 有 数据 管理 知识 体系 进行 完善 和 
补充 ， 面 向 新 的 技术 热点 ， 提 出 新 的 知识 体系 /知识 点 ， 拉 近 教 材 体系 与 大 数据 应 用 的 距离 ， 为 受 教 者 应 对 现代 技术 带 来 的 大 数 
据 领域 的 新 问题 和 挑战 ， 扫 除 障碍 。 我 们 相信 ， 假 以 时 日 ， 这 些 著作 汇 溪 成 河 ， 必 将 对 未 来 大 数据 人 才 培 养 起 到 “基石 ”的 作 
用 。 


丛书 定位 : 面向 新 形势 下 的 大 数据 技术 发 展 对 人 才 培 养 提 出 的 挑战 ， 旨 在 为 学 术 研 究 和 人 才 培 养 提 供 可 供 参 考 的 “基石 ”。 
虽然 是 一 些 不 起 眼 的 “砖头 瓦 块 ”， 但 可 以 为 大 数据 人 才 培 养 积 累 可 用 的 新 模块 (新 素材 ) ， 弥 补 原 有 知识 体系 与 应 用 问题 之 前 
的 鸿沟 ， 力 图 为 现 有 的 数据 管理 知识 查 漏 补缺 ， 聚 少 成 多 ， 最 终 形成 适应 大 数据 技术 发 展 和 人 才 培 养 的 知识 体系 和 教材 基础 。 


从 书 特 点 : 丛书 借鉴 Morgan&Claypool Publishers 出 版 的 Synthesis Lectures on Data Management， 特 色 在 于 选 题 新 
颖 ， 短 小 精湛 。 选 题 新 络 即 面向 技术 热点 ， 弥 补 现 有 知识 体系 的 漏洞 和 不 足 (或 延伸 或 补充 ) ， 内 容 涵 盖 大 数据 管理 的 理论 、 方 
法 、 技 术 等 诸多 方面 。 短 小 精湛 则 不 求 系统 性 和 完备 性 ， 但 每 本 书 要 自 成 知识 体系 ， 重 在 阐述 基本 问题 和 方法 ， 并 辅 以 例题 说 
明 ， 便 于 施 教 。 


丛书 组 织 : 丛书 采用 国际 学 术 出 版 通行 的 主编 负责 制 ， 为 此 特 邀 中 国人 民 大 学 孟 小 峰 教 授 (email: 
xfmeng@ruc.edu.cn) 担任 丛书 主编 ， 负 责 丛书 的 整体 规划 和 选 题 。 责 任 编辑 为 机 械 工 业 出 版 社 华章 分 社 姚 鞋 编辑 (email: 


yaolei@hzbook.com) 。 

在 此 期 望 有 志 于 大 数据 人 才 培 养 并 具有 丰富 理论 和 实践 经 验 的 学 者 和 专业 人 员 能 够 加 入 到 这 套 书 的 编写 工作 中 来 ， 共 同 为 中 
国 大 数据 研究 和 人 才 培 养 贡献 自己 的 智慧 和 力量 ， 共 筑 属 于 我 们 自己 的 “时 代 记 忆 ”。 欢 迎 读者 对 我 们 的 出 版 工作 提出 宝贵 意见 
和 建议 。 
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随 着 室内 外 定位 、 移 动 社交 网 络 和 物 联网 技术 的 发 展 与 普及 ， 移 动 数 据 的 种 类 、 规 模 和 产生 速度 都 在 迅速 增长 。 这 些 数 据 中 
有 很 大 一 部 分 是 由 人 产生 的 ， 也 就 是 通过 各 种 方式 记录 下 来 的 人 的 活动 历史 。 它 们 包含 了 大 量 的 知识 ， 对 于 众多 实际 应 用 有 着 重 
要 的 价值 。 我 们 可 以 通过 对 这 些 数 据 进行 挖掘 ， 来 发 现 人 类 出 行 的 规律 ， 并 针对 用 户 的 属性 和 兴趣 爱好 生成 画像 ， 从 而 为 用 户 提 
供 更 加 个 性 化 的 服务 ， 包 括 交通 出 行规 划 、 旅 游 线 路 和 购物 餐饮 推荐 等 。 这 些 知识 还 能 用 来 研究 疾病 传播 、 城 市 发 展 及 人 类 迁徙 
等 具有 重大 社会 意义 的 科学 问题 。 近 年 来 ， 针 对 移动 数据 的 挖掘 已 经 成 为 学 术 界 和 工业 界 的 热点 之 一 。 


本 书 作者 所 在 的 研究 团队 从 十 年 前 就 开始 在 该 领域 开展 研究 ， 并 在 2006 年 进行 的 GeoLife 项 目 中 通过 用 户 分 享 的 移动 数据 研 
究 用 户 的 出 行 模式 ， 为 旅游 线路 规划 等 应 用 提供 支持 ， 相 关 论 文 也 被 广泛 引用 。 本 书 第 一 作者 ， 即 目前 任教 于 电子 科技 大 学 的 连 


在 实际 应 用 中 ， 移 动 数 据 的 形式 多 种 多 样 ， 既 有 来 自 移动 社交 网 络 的 签到 数据 、 来 自 运营 商 的 日 志 数 据 ， 也 有 来 自 公交 计 费 
系统 的 刷卡 记录 数据 。 本 书 从 分 析 移 动 数据 的 特性 出 发 ， 探 讨 和 设计 针对 移动 数据 的 数据 挖掘 算法 ， 并 指出 在 该 领域 展开 研究 将 
要 面临 的 挑战 。 


希望 本 书 能 够 帮助 有 兴趣 研究 移动 数据 挖掘 的 读者 缩短 学 习 的 过 程 ， 并 共同 推进 该 领域 的 研究 进展 。 


移动 数据 挖掘 研究 的 是 基于 移动 数据 的 数据 挖掘 算法 。 这 些 数据 挖掘 算法 需要 更 多 地 利用 移动 数据 的 特性 ， 挖 掘 与 这 些 特 性 
有 关系 的 模式 。 比 如 ， 研 究 发 现 ， 移 动 数据 通常 具有 空间 的 聚集 效应 ， 即 人 们 总 是 在 少数 的 几 个 地 点 (家 、 工 作 场 所 等 ) 附近 活 
动 ， 因 而 如 何在 数据 挖掘 的 过 程 中 考虑 这 一 特性 ， 便 是 移动 数据 挖掘 需要 重点 考虑 的 一 个 问题 。 那 么 ， 移 动 数据 具体 是 什么 、 有 
哪些 特性 、 移 动 数 据 挖掘 有 什么 任务 、 将 要 面 对 哪 些 挑战 呢 ? 


1.1 移动 数据 及 其 价值 


移动 数据 是 移动 轨迹 的 集合 ， 而 移动 轨迹 可 以 简单 地 认为 是 移动 记录 的 有 序 序列 ， 既 可 以 是 人 的 移动 数据 ， 也 可 以 是 任何 其 
他 动物 的 移动 数据 。 本 书 关注 的 是 人 类 的 移动 历史 。 人 类 的 移动 历史 具有 更 多 的 不 确定 性 ， 他 们 并 非 总 是 愿意 保持 固定 不 变 的 生 
活 规律 ， 因 而 人 类 的 移动 数据 中 具有 更 加 丰富 的 移动 模式 。 人 们 可 以 通过 携带 GPS 设 备 直 接收 集 移动 数据 ， 也 可 以 将 诸如 出 租 
车 、 公 交 车 、 飞 机 、 火 车 等 移动 对 象 作 为 载体 来 间接 收集 他 们 的 移动 数据 。 这 种 移动 数据 收集 的 普 适 性 得 力 于 移动 通信 和 传 感 设 
备 等 位 置 感知 技术 的 发 展 和 智能 移动 设备 的 普及 ， 使 得 移动 对 象 无 论 身 处 室内 还 是 室外 都 可 以 更 加 容易 地 获取 他 们 自身 的 地 理 位 
置信 息 。 目 前 最 先进 的 定位 系统 不 仅 依赖 于 全 球 卫星 定位 系统 的 高 精度 定位 ， 还 依赖 于 Wi-Fi 和 基站 的 较为 粗略 但 学 围 更 广 的 定 
位 。 出 于 业务 本 身 或 未 来 业务 扩展 及 研究 的 需要 ， 移 动 对 象 的 很 多 定位 数据 都 会 被 保留 下 来 。 由 于 与 业务 的 强 相 关 性 ， 用 户 群 的 
大 小 及 位 置 的 采样 频率 也 决定 了 这 些 存 留 的 位 置 数据 不 仅 数量 巨大 ， 而 且 数 据 产生 的 速率 很 高 。 比 如 ， 运 莒 商 出 于 高 效 通 信 的 需 
求 会 记录 每 个 移动 用 户 的 服务 位 置 ， 由 于 用 户 的 规模 巨大 ， 因 此 每 天 产生 的 位 置 数据 量 也 是 非常 巨大 的 。 据 我 国 三 大 运营 商 的 运 
莒 数据 显示 ， 截 至 2015 年 12 月 ， 中 国电 信 、 中 国 移动 和 中 国联 通 的 用 户 数 分 别 高 达 1.979 亿 户 、8.26 亿 户 和 2.866 亿 户 。 假 如 每 


人 每 天 平均 通信 一 次 ， 那 么 每 天 就 会 有 约 13 亿 条 的 位 置 数据 。 


然而 ， 正 如 基站 定位 数据 是 存储 在 运营 商 手 中 的 一 样 ， 位 置 数据 一 般 不 会 保存 在 移动 对 象 的 手中 ， 外 加 数据 量 巨大 ， 使 得 移 
动 数 据 的 开放 受到 了 很 大 的 约束 。 不 过 ， 随 着 移动 互联 网 和 在 线 社 交 网 络 的 发 展 ， 诸 如 街 旁 网 、Foursquare、Facebook Place 
等 位 置 社交 网 络 应 运 而 生 。 在 位 置 社交 网 络 中 ， 人 们 可 以 便捷 地 跟踪 和 分 享 诸如 他 们 在 什么 地 方 和 什么 时 候 做 了 什么 事情 的 签到 
(check-in) 记录 等 位 置 访问 信息 。 同 样 ， 源 于 与 在 线 社交 网 络 的 结合 ， 位 置 社交 网 络 中 的 用 户 群 也 是 巨大 的 ， 使 得 用 户 的 移 
动 数 据 也 得 到 了 大 量 的 积累 。 根 据 街 旁 网 的 官方 数据 ， 从 2010 年 5 月 上 线 到 2013 年 7 月 ， 街 旁 用 户 数 已 经 突破 了 500 万 ， 累 计 签 
到 次 数 超过 8000 万 次 。 根 据 Foursquare 的 统计 数据 ， 从 2009 年 3 月 上 线 到 2013 年 12 月 ， 用 户 数 已 经 达到 了 4500 万 ， 累 计 签 到 
数 高 达 50 亿 。 


这 些 大 规模 移动 数据 的 积累 ， 为 基于 位 置 的 智能 服务 提供 了 重要 的 基础 条 件 。 目 前 ， 这 些 基于 位 置 的 智能 服务 开辟 了 一 个 正 
在 快速 增长 的 市 场 。 一 份 来 自 MarketsandMarkets 的 研究 报告 预计 ， 诸 如 导航 、 移 动 广告 、 移 动 社交 网 络 等 基于 位 置 的 智能 服 
务 的 市 场 份额 将 从 2016 年 的 113 亿 美元 增长 到 2020 年 的 549 亿 美元 [0 和。 下 面 我 们 列举 一 些 基于 位 置 的 智能 服务 的 重要 案例 。@ 通 
过 分 析 大 量 的 历史 活动 轨迹 数据 或 出 行 数据 ， 为 人 们 的 日 常 出 行 和 旅游 给 出 合适 的 路 线 和 兴趣 点 的 推荐 向 B] 向 P]。@ 基 于 位 置 社 
交 网 络 数据 ， 挖 掘 本 地 人 和 外 地 人 涉猎 区 域 上 的 差异 性 ， 从 而 帮助 人 们 学 习 到 本 地 化 的 相关 知识 ， 比 如 利用 北京 本 地 人 的 生活 经 
验 ， 给 来 北京 旅游 的 外 地 人 推荐 性 价 比较 高 的 餐馆 和 酒店 0。@ 东 京 大 学 联合 微软 亚洲 研究 院 利用 一 百 多 万 人 三 年 的 GPS 轨 迹 、 
日 本 的 自然 灾害 资料 及 灾害 的 官方 和 新 闻 媒 体 报道 ， 来 分 析 建 模 灾 后 人 们 的 移动 行为 规律 ， 从 而 生成 并 模拟 灾害 发 生 后 的 最 优 移 
动 线路 小。@ 如 AirSage 公 司 一 般 每 天 通过 处 理 来 自 上 百 万 手机 用 户 的 150 亿 条 位 置信 息 ， 为 美国 的 100 多 个 城市 提供 实时 交通 信 
息 [ 引 。@ 微 软 研究 人 员 提 出 的 T-Drive 系 统 中 可 分 析 33000 辆 北京 出 租车 的 GPS 轨 迹 ， 来 帮助 出 行人 员 得 出 更 优 的 驾车 路 线 。 测 
试 证 明 ， 推 荐 的 驾车 路 线 和 Bing Maps 或 Google Maps 内 置 的 路 线 搜索 相 比 ， 有 60% 的 路 线 更 优 ， 可 节省 16% 的 时 间 。@ 类 似 
地 ， 他 们 还 设计 了 T-Finder 系 统 [19]， 不 仅 可 以 为 出 租车 司机 推荐 具有 高 密度 客 源 的 邻近 区 域 ， 从 而 减少 了 出 租车 司机 的 空 载 时 
间 ， 还 可 以 为 乘客 推荐 有 更 高 上 车 概率 的 邻近 上 车 地 点 ， 从 而 减少 了 乘客 的 等 待 时 间 。@ 无 线 数据 科技 公司 (Jana) 使 用 来 自 
100 多 个 国家 的 、 超 过 200 个 通信 运营 商 提 供 的 、 覆 盖 了 大 约 35 亿 人 口 的 基站 连接 数据 ， 将 其 转换 为 用 户 移动 轨迹 之 后 ， 来 研究 
疾病 传播 、 城 市 发 展 、 人 类 迁移 等 具有 重大 意义 和 价值 的 科学 问题 [11]。@ 传 统 的 车 险 业 一 般 是 通过 评估 群体 的 平均 风险 来 为 车 
险 定 价 ， 但 是 当 保 险 公司 分 析 了 车 辆 出 行 时 间 、 常 见 行驶 地 点 和 实际 行驶 过 程 等 移动 数据 之 后 ， 便 可 以 转变 为 对 每 个 客户 的 个 性 
化 风险 评估 和 车 险 定价 ， 从 而 改变 了 车 险 业 的 运营 方式 1。@ 联 合 包 襄 运 输 公 司 UPS 公司) 收集 运输 车 辆 的 行驶 轨迹 信息 ， 
并 为 它们 提供 最 佳 行车 路 线 ， 从 而 减少 燃油 消耗 、 降 低 故 障 成 本 ， 在 商业 模式 上 取得 了 巨大 的 成 功 。 据 统计 ， 仅 2011 年 ，UPS 
公司 旗下 的 车 辆 行驶 路 程 就 缩短 了 4828 万 公里 ， 间 接 减 少 了 1136 万 升 的 燃料 和 3 万 吨 二 氧化 碳 的 排放 [13]。 从 最 后 的 两 个 案例 可 
以 看 到 ， 移 动 数据 的 挖掘 与 分 析 甚至 可 以 改变 公司 业务 的 运作 方式 ， 暗 含 了 巨大 的 商业 价值 。 


[1] http://bit.ly/1mdal Hv. 

[2] D Lian, C Zhao, et al.Geomf: joint geograph-ical modeling and matrix factorization for point-of-interest recommendation [C] .In 
Proceedings ofKDD' 14, ACM, 2014. 

[3] M Ye, P Yin, et alExploiting geographical influence for collaborative point-of-interest recommendation [C] .In Proceedings of 
SIGIR’ 11, ACM, 2011. 

[4] V Zheng, B Cao, et al.Collaborative filtering meets mobile recommendation: Auser-centered approach [C] .In Proceedings of 
AAAI' 10.AAAI Press, 2010. 

[5] Y Zheng and X Xie.Learning travel recommendations from user-generated gps traces [J] .ACM Transaction Intelligent Systems 
Technology. (TIST) , 2011, 2 (1) : 2. 

[6] Z Yang, NJ Yuan, etal.Indigenization of urban mobility [C] .arXiv preprint arXiv: 1405.7769, 2014. 


[7] X Song, Q Zhang, et al.A simulator of human emergency mobility following disasters: Knowledge transfer from big disaster 


data [C] .In Proceedings of AAAI’ 15, 2015. 

[8] C W Smith, I Clayton Wilkinson, et al.System and method for providing traffic information using operational data of a wireless network: 
US Patent, 6, 842, 620 [P] .Jan.11, 2005. 

[9]J Yuan, Y Zheng, etal.T-drive: driving directions based on taxi trajectories [C] .In Proceedings of GIS’ 10, ACM, 2010. 

[10] N J Yuan, Y Zheng, et al.T-finder: A recommender system for finding passengers and vacant taxis [J] .Knowledge and Data 
Engineering, [EEE Transactions on, 2013, 25 (10) : 2390-2403. 

[11] S Hil, A Banser, et  alReality mining africa [C] .In AAAI Spring Symposium: Artificial Intelligence for 
Development.Citeseer, 2010. 

[12] T Litman.Distance-based vehicle insurance: feasibility, costs and benefits [ EB/OL ] .www.vtpi.org/d-bvi com.pdf. 

[13] H Zhong, D Zatet.Cote area territory planning for optimizing driver familiarity and route flexibility, US 


Patent, 7, 363, 126 [P] .Apr.22, 2008. 


1.2 ”概念 与 定义 


前 面 提 到 移动 数据 是 移动 轨迹 的 集合 ， 而 移动 轨迹 是 移动 记录 的 有 序 序列 。 移 动 记录 是 《时 间 ， 位 置 》 对 ， 可 以 记录 诸如 用 
GPS 设 备 等 连续 采样 的 数据 ， 也 可 以 记录 诸如 移动 社交 网 络 中 签到 等 事件 类 型 的 数据 。 对 于 GPS 设 备 采 集 的 连续 位 置信 息 存在 停 
留 点 ， 用 户 需 要 在 附近 停留 一 定 的 时 间 。 因 而 ， 停 留 点 是 带 有 位 置 、 到 达 时 间 及 停留 时 间 信 息 的 点 。 对 于 非 停留 点 位 置 ， 用 户 可 
能 只 是 路 过 所 以 并 不 感 兴趣 ， 因 而 连续 的 GPS 位 置 数据 通常 会 被 处 理 成 停留 点 的 序列 。 移 动 社交 网 络 是 移动 位 置 服务 和 社交 媒体 
的 结合 体 ， 是 一 种 与 朋友 分 享 地 点 访问 信息 的 社交 平台 ， 可 用 于 帮助 人 们 更 加 便利 、 快 捷 地 探索 周边 环境 和 配套 设施 。 其 中 分 享 
的 地 点 访问 信息 就 是 移动 社交 网 络 中 的 签到 。 在 签到 时 ， 一 般 是 从 兴趣 点 数据 库 中 选择 所 访问 的 兴趣 点 ， 加 上 简短 的 话语 分 享 感 
受 。 如 果 有 更 深刻 的 感触 ， 还 可 以 分 享 更 加 丰富 的 攻略 信息 甚至 有 趣 的 照片 等 。 兴 趣 点 是 带 有 名 字 、 语 义 信息 的 地 点 ， 比 如 餐 
馆 、 酒 店 、 电 影院 等 。 诸 如 大 众 点 评 网 和 Yelp 等 本 地 服务 平台 纷纷 兴起 ， 大 众 点 评 网 可 以 对 地 点 进行 打分 和 点 评 ， 来 说 明 兴 趣 


地 点 的 好 和 差 。 点 评 信息 和 攻略 信息 有 些 类 似 ， 只 是 攻略 信息 没有 打分 。 
用 户 的 移动 历史 信息 除了 可 以 表示 为 一 个 地 点 序列 以 外 ， 还 可 以 被 处 理 为 一 个 用 户 地 点 访问 的 二 部 图 ， 在 二 部 图 中 ， 图 的 顶 


点 被 分 为 两 个 不 相交 的 子 集 ， 一 个 为 用 户 集 ， 一 个 为 地 点 集 。 二 部 图 的 边 只 存在 于 两 个 子 集 之 间 ， 表 示 用 户 访问 了 某 个 地 点 ， 边 
的 权重 可 以 表示 为 访问 次 数 。 而 子 集 内 的 顶点 之 间 ， 即 用 户 之 间 和 地 点 之 间 ， 则 无 边 相 连 。 假 设 用 户 的 集合 为 U={u1， 

s UM}， 地 点 的 集合 为 L={l1 ，.…，IN}，cu, 测 表 示 用 户 集中 的 某 一 个 用 户 u 对 地 点 集中 的 某 一 个 地 点 i 的 访问 次 数 ， 对 应 于 二 部 
图 中 的 边 权 。 众 所 周知 ， 图 可 以 用 和 矩阵 来 表示 ， 二 部 图 同样 也 不 例外 。 假 设 用 矩阵 C 表 示 这 个 二 部 图 ， 每 一 行 对 应 每 一 个 用 户 ， 

每 一 列表 示 每 一 个 地 点 ， 那 么 矩阵 中 的 每 一 个 元 素 cu，i 便 对 应 了 二 部 图 中 的 边 权 。 随 着 城市 的 发 展 ， 可 供 人 们 访问 的 诸如 餐馆 、 

酒店 、 商 场 等 地 点 是 越 来 越 多 了 。 由 于 每 个 用 户 只 会 访问 很 少 一 部 分 地 点 ， 因 此 这 个 矩 阵 便 是 稀 玻 的 。 


移动 社交 网 络 中 的 社交 网 络 是 由 顶点 和 边 组 成 的 图 结构 ， 顶 点 是 用 户 ， 边 表示 用 户 之 间 的 关系 ， 比 如 是 否 为 朋友 关系 ,或 者 
杀 密 程度 等 。 如 果 边 表示 亲密 程度 ， 那 么 图 就 是 加 权 网 络 。 如 果 关 系 是 有 方向 的 ， 比 如 微 博 中 的 关注 关系 ， 那 么 图 就 称 为 有 向 
图 。 如 果 用 户 之 间 是 双向 关系 ， 比 如 Facebook 中 的 关系 ， 那 么 图 就 为 无 向 图 。 由 于 一 个 用 户 的 朋友 数 有 限 ， 因 此 社交 关系 图 就 
是 稀疏 的 。 图 可 以 用 矩阵 来 表示 ， 社 交 关 系 图 就 可 以 用 稀 玻 方 阵 来 表示 。 对 于 双向 关系 的 无 向 图 ， 对 应 的 稀疏 矩阵 便 是 对 称 的 ; 
而 对 于 单 向 关系 的 有 向 图 ， 对 应 的 稀 玻 和 矩阵 基本 上 就 是 非 对 称 的。 对 于 社交 网 络 中 的 任意 节点 ， 其 一 度 朋 友 是 指 该 节点 的 直接 邻 
E (BEA) ， 二 度 朋 友 则 是 指 该 节点 的 朋友 的 朋友 。 随 着 度 的 增加 ， 与 该 节点 关联 的 节点 越 来 越 多 。 针 对 在 线 社交 网 络 的 研究 ， 
可 以 发 现在 线 社交 了 网络 基 本 上 都 是 小 世界 网 络 ， 满 足 “ 小 世界 理论 ”。 “小 世界 理论 ”是 指 人 们 和 任何 一 个 陌生 人 之 间 所 间隔 的 


人 不 会 超过 6 个 。 因 而 ， 达 到 一 定 的 度 之 后 ， 每 个 节点 所 关联 的 节点 可 能 就 会 覆盖 整个 网 络 [1]。 


[I] E David, K Jon.Networks, Crowds, and Markets: Reasoning About a Highly Connected World [M] .New York: Cambridge 


University Press, 2010. 


1.3 挑战 


移动 数据 的 形式 多 种 多 样 ， 有 来 自 移动 社交 网 络 中 的 签到 数据 、 与 基站 通信 时 的 日 志 数 据 ， 还 有 公交 交通 工具 的 刷卡 数据 、 
美 钞 的 交易 数据 ， 等 等 ， 它 们 的 特点 也 各 有 不 同 ， 具 体 表现 在 采样 频率 、 数 据 采集 方式 、 定 位 精度 等 。 不 过 针对 这 些 数 据 的 挖掘 
所 面临 的 挑战 是 类 似 的 。 


. 可 扩展 性 ”移动 数据 的 规模 巨大 ， 不 仅 源 于 用 户 群 的 规模 ， 而 且 源 于 数据 的 产生 速率 。 如 此 大 规模 的 移动 数据 要 求 移 动 数 
据 的 挖掘 算法 需要 有 具有 较 高 的 可 扩展 性 。 这 种 可 扩展 性 应 该 尽 可 能 地 利用 移动 数据 的 诸如 本 地 化 、 空 间 聚 集 等 特性 (将 在 第 2 章 


介绍 ) 。 
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们 的 日 常生 活 模式 和 兴趣 偏好 就 变 得 异常 困难 。 在 基站 定位 数据 中 ， 根 据 宋 超 明 (音译 ) 等 人 的 分 析 中 ， 我 们 发 现 人 们 探索 新 地 
点 的 速率 是 随 着 时 间 增 长 而 迅速 减 小 的 。 即 当 人 们 熟悉 了 他 们 的 周 唱 环境 之 后 ， 便 很 少 会 继续 探索 新 地 点 。 因 而 ， 即 使 人 们 时 刻 
分 享 其 位 置 访问 记录 ， 这 些 分 享 的 记录 也 都 是 宛 余 的 。 见 余 的 信息 虽然 可 以 帮助 了 解 人 们 的 日 常生 活 规律 ， 但 是 要 从 中 深入 了 解 
人 们 的 兴趣 偏好 也 是 一 件 挑 战 性 很 高 的 事情 。 


* 群体 智慧 ”在 移动 社交 网 络 中 ， 人 们 趋 于 分 享 他 们 的 感受 和 关注 。 通 过 评论 、 排 名 等 方式 可 以 很 容易 地 获取 群体 的 智慧 。 
与 用 户 交互 在 一 起 的 各 类 元 信息 对 于 移动 数据 挖 据 的 很 多 任务 是 有 巨大 价值 的 。 另 外 ， 人 们 通过 对 地 点 的 访问 而 相互 关联 在 一 
起 ,那么 应 该 如 何 利 用 这 些 关 联 性 来 缓解 稀疏 性 从 而 帮助 了 解 人 们 的 兴趣 偏好 呢 ? 


异 质 性 ”移动 数据 挖掘 的 任务 通常 需要 多 个 数据 源 共同 支持 。 比 如 城市 交通 中 事故 的 检测 可 能 需要 同时 分 析出 租车 的 轨迹 
和 监控 的 视频 。 兴 趣 地 点 的 发 现 可 能 需要 借助 人 们 诸如 年 龄 、 性 别 、 教 育 情况 、 任 职 情况 等 的 基本 信息 ， 还 可 能 需要 社交 网 络 上 
的 社交 关系 ， 兴 趣 地 点 的 物理 位 置信 息 、 评 论 和 攻略 等 文本 内 容 ， 分 享 的 图 片 信息 ， 等 等 。 城 市 功能 区 域 的 发 现 需 要 区 域 出 入 信 
息 、 周 遭 兴趣 点 信息 ， 竺 等。 因此， 移动 数据 的 挖掘 需 要 设计 诸如 多 视图 、 多 核 学习 或 共同 矩阵 分 解 等 相关 算法 来 处 理 这 些 多 源 
异 构 的 数据 。 


[1] D Lian, X Xie, et al.Cepr: A collaborative exploration and periodically returning model for location prediction [J] .ACM Transaction 
Intelligent Systems Technology, 2015, 6 (1) : 8: 1-8: 27. 

[2] H Gao, J Tang, X Hu, et al.Exploring temporal effects for location recommendation on location-based social networks [C] .In 
Proceedings of RecSys’ 13, ACM, 2013. 


[3] CSong, T Koren, et al.Modelling the scaling properties of human mobility [J] .Nature Physics, 2010, 6 (10) : 818-823. 


14 本 书简 介 


在 这 些 挑战 之 下 ， 本 书 将 主要 以 人 的 轨迹 数据 ， 特 别 是 移动 社交 网 络 的 位 置 数据 为 中 心 ， 结 合 人 的 基本 信息 及 社交 网 络 等 相 
关 信 息 来 研究 个 人 与 群体 的 移动 模式 特性 ， 具 体 包括 用 户 移动 建 模 、 基 于 移动 数据 的 用 户 画 像 及 个 性 化 兴趣 地 点 推荐 等 。 


- 在 介绍 移动 数据 的 挖 气 内 容 之 前 ， 我 们 先 会 介绍 移动 数据 的 预 处 理 方法 。 数 据 预 处 理 通 常 是 数据 挖 气 的 第 一 步 ， 也 是 非常 
重要 的 一 步 ， 它 可 能 会 影响 到 后 续 挖掘 算 法 在 移动 数据 中 的 准确 性 或 可 用 性 。 在 移动 数据 预 处 理 的 章节 (第 2 章 ) 中 ， 我 们 会 介 
绍 缺 失 数 据 的 补 全 和 骂 声 数据 的 清除 ， 这 些 主 要 针对 用 户 室内 定位 数据 的 丢失 或 漂移 问题 ， 以 及 由 于 业务 本 身 造 成 的 数据 缺失 问 
题 等 等 。 那 些 连 续 收 集 的 GPS 轨 迹 数 据 通 常 存在 大 量 宛 余 ， 因 而 需要 利用 聚 类 算法 进行 重要 位 置 或 事件 的 检测 ， 比 如 路 径 轨迹 中 
停留 时 间 较 长 的 地 点 。 但 是 这 些 被 提取 出 来 的 重要 位 置 一 般 没有 语义 信息 ， 如 何 基 于 有 监督 学 习 的 算法 利用 诸如 兴趣 点 、 可 开展 
活动 的 信息 对 这 些 重要 位 置 进行 标记 或 命名 ， 也 是 预 处 理 部 分 需要 介绍 的 内 容 。 


“ 对 人 类 移动 模式 的 理解 是 自然 科学 的 重要 内 容 ， 它 对 于 交通 规划 、 疾 病 传 播 、 城 市 规划 等 具有 重要 的 作用 。 人 类 移动 模式 
的 理解 主要 在 于 了 解 人 类 移动 背后 的 规律 ， 并 在 此 基础 上 对 人 类 的 移动 进行 建 模 ， 从 而 预测 人 类 的 未 来 移动 。 第 3 章 将 从 人 类 动 
力学 角度 和 数据 挖 气 两 个 角度 来 阐述 对 人 类 移动 模式 的 理解 。 人 类 动力 学 角度 是 将 每 个 个 体 当 作物 理学 中 的 粒子 ， 基 于 粒子 的 物 
理 移动 模型 (比如 连续 的 随机 游 走 模 型 ) 来 建 模 研究 人 类 的 移动 行为 ， 具 有 很 强 的 物理 学 意义 和 解释 性 。 而 基于 数据 挖 据 的 移动 
模型 则 是 从 数据 出 发 ， 利 用 如 马尔 可 夫 模 型 或 时 间 规 律 性 模型 来 分 析 用 户 的 移动 特性 。 此 外 ， 该 章 还 会 介绍 移动 模式 中 的 时 空 聚 


类 特性 ， 以 及 如 何 度量 社交 网 络 对 于 移动 行为 特性 的 影响 。 然 而 ， 根 据 宋 超 明 等 人 帽 的 分 析 ， 在 数据 较为 完整 的 基站 轨迹 数据 
中 ， 用 户 行为 的 可 预测 性 虽然 高 达 93%， 但 是 仍然 存在 7% 的 不 规律 行为 (文中 称 为 地 点 探索 行为 ) 。 为 此 ， 该 章 也 会 冰 述 对 这 
类 移动 行为 的 分 析 和 预测 ， 同 时 介绍 统一 的 算法 框架 来 同时 预测 规律 性 行为 和 探索 行为 。 


.不同 用 户 的 移动 模型 均 会 有 所 差别 ， 但 也 存在 很 多 共性 。 这 种 共性 可 能 是 他 们 共同 的 属性 或 特质 决定 的 ， 使 得 从 用 户 的 移 
动 模型 去 推导 用 户 的 基本 属性 或 特质 成 为 可 能 。 因 此 ， 在 第 4 章 中 ， 将 介绍 基于 移动 数据 的 用 户 画 像 ， 利 用 分 类 算法 或 回归 算法 
对 用 户 的 显 性 属性 和 隐 性 属性 进行 预测 。 其 中 的 显 性 属性 是 指 年 龄 、 性 别 、 教 育 背景 等 基本 信息 ， 而 隐 性 属性 则 是 指 一 些 心理 特 
性 ， 比 如 消费 冲动 心理 、 新 颖 性 探索 特性 ， 等 等 。 对 这 类 问题 的 研究 使 得 提出 准确 率 更 高 的 预测 算法 成 为 可 能 。 另 外 ， 不 管 是 隐 
性 属性 还 是 显 性 属性 ， 出 于 隐私 的 考虑 ， 人 们 都 不 会 轻易 地 将 其 分 享 出 来 ， 因 而 用 户 画 像 可 以 为 精准 的 移动 广告 和 精准 营销 提供 
重要 的 依据 。 也 就 是 说 ， 系 统 可 以 根据 移动 行为 的 特性 来 投放 相应 的 广告 。 


- 针对 移动 数据 的 挖 据 ， 我 们 不 仅 可 以 刻画 人 们 的 时 空 规律 性 ， 而 且 还 可 以 学习 人 们 的 兴趣 偏好 ， 进 而 推荐 适合 他 们 的 未 访 
问 过 的 兴趣 地 点 。 这 种 兴趣 的 挖 据 一 般 是 通过 聚 类 等 降 维 技术 或 协同 过 滤 等 学 习 方法 来 实现 的 。 在 第 5 章 中 ， 首 先 会 根据 兴趣 地 
点 推荐 问题 重点 介绍 协同 过 滤 方 法 在 移动 数据 上 的 应 用 研究 。 由 于 地 点 是 内 误 在 地 理 空间 中 的 ， 人 们 对 地 点 的 访问 存在 空间 聚集 
效应 ， 即 符合 地 理学 第 一 定律 一 一 “任何 事物 都 相关 ， 只 是 相近 的 事物 关联 得 更 紧密 ”， 我 们 将 重点 考虑 地 理 影响 力 的 建 模 。 如 
果 将 地 点 的 物理 位 置 作为 地 点 内 容 信 息 ， 地 理 建 模 就 是 一 种 基于 内 容 的 推荐 方法 。 除 了 地 理 信 息 以 外 ， 被 推荐 的 地 点 通常 还 有 其 
他 很 多 的 诸如 评论 等 的 文本 信息 ， 那 么 如 何 针对 这 些 文本 信息 进行 基于 内 容 的 推荐 ”最 后 ， 将 介绍 统一 的 兴趣 地 点 的 推荐 模型 ， 
来 同时 考虑 这 些 重要 的 要 素 。 主 要 包括 介绍 如 何 基 于 这 些 用 户 属 性 和 地 点 的 内 容 属 性 实现 在 移动 数据 不 完整 的 情况 下 〈 冷 启动 ) 
的 推荐 问题 ， 这 一 点 与 第 4 章 从 移动 模型 预测 用 户 属性 的 出 发 点 刚好 相反 。 另 外 ， 地 点 的 推荐 应 该 是 在 一 定 的 情境 ， 比 如 说 特定 
时 间 之 下 完成 的 ， 因 此 情境 感知 的 地 点 推荐 方法 也 是 该 章 的 重要 内 容 之 一 。 


[1] C Song, Z Qu, etal.Limits of predictability in human mobility [J] .Science, 2010, 327 (5968) : 1018-1021. 


Ble ”移动 数据 预 处 理 


在 本 章 中 ， 首 先 对 移动 数据 及 其 特性 进行 介绍 ， 再 介绍 针对 移动 数据 的 预 处 理 。 因 为 移动 数据 的 挖掘 是 从 原始 移动 数据 、 语 
义 移 动 数据 等 多 个 层次 进行 的 ， 在 挖掘 时 总 是 会 出 现 各 种 各 样 的 数据 缺失 或 数据 异常 。 因 此 ， 本 章 的 数据 预 处 理 包括 缺失 数据 补 
全 、 重 要 地 点 检测 、 语 义 信息 标注 三 个 方面 ， 预 处 理 的 目的 就 在 于 更 好 地 为 后 续 移 动 数据 的 挖掘 和 分 析 做 准备 。 


2.1 移动 数据 简介 


移动 数据 的 类 型 众多 、 范 围 较 广 ， 有 来 自 于 人 类 日 常生 活 中 使 用 手机 等 智能 设备 留 下 的 印记 ， 也 有 为 研究 人 类 和 动物 等 的 日 
常 行为 规律 而 收集 的 轨迹 数据 。 本 书 中 ， 我 们 主要 关注 和 人 相关 的 移动 数据 ， 这 些 数据 不 仅 包 括 GPS 轨迹 [1 器、 基站 定位 数 
据 BI 和 出、 公交 卡 轨迹 P、Wi-Fi 定 位 数据 加 、 美 钞 交易 地 点 轨迹 [/] 等 ， 还 包括 移动 社交 网 络 中 的 签到 轨迹 四 中 、 带 有 GPS 标记 的 
图 片 轨 迹 [10] 等 。 


这 些 不 同类 型 的 数据 的 来 源 、 特 点 各 不 相同 ， 如 表 2.1 所 示 ， 因 而 就 有 不 同 的 分 类 方法 。 从 收集 的 意愿 性 来 考虑 ， 有 被 动 收 
集 和 主动 收集 之 分 。 比 如 基站 定位 数据 便 因 用 户 使 用 手机 打 电 话 、 发 短信 和 上 网 时 连接 基站 而 记录 ， 这 种 记录 是 源 于 手机 通信 过 
程 的 需要 ， 是 一 个 被 动 过 程 ; Wi-Fi 定 位 数据 和 基站 定位 数据 类 似 ， 是 用 户 访问 网 络 时 连接 Wi-Fi 热 点 而 记录 的 ， 也 是 一 个 被 动 过 
Fe; 再 比如 ， 公 共 交 通 工 具 的 乘坐 轨迹 因 计 费 需求 来 记录 乘客 的 上 车 地 点 或 下 车 地 点 而 产生 ， 也 是 一 个 被 动 过 程 。 而 诸如 移动 社 
交 网络 中 的 签到 轨迹 、 图 片 轨迹 等 均 属 于 主动 收集 或 主动 上 报 的 数据 ， 因 为 签到 数据 是 人 们 在 访问 地 点 之 后 出 于 趣味 性 希望 与 朋 
友 分 享 从 而 通过 社交 媒体 记录 的 数据 ， 图 片 轨迹 是 人 们 在 看 到 适合 场景 拍摄 照片 时 留 下 的 地 理 印记 而 累计 形成 的 。 然 而 ，GPs 的 
轨迹 数据 出 于 记录 载体 的 不 同 ， 既 有 可 能 是 被 动 记录 的 ， 比 如 出 租车 公司 出 于 管理 的 目的 在 出 租车 上 装备 GPS 设备 而 记录 的 轨迹 
就 是 被 动 收集 的 数据 ， 也 有 可 能 是 主动 记录 的 ， 比 如 发 动 志愿 者 携带 GPS 设备 记录 日 程 出 行 轨迹 的 过 程 便 是 主动 收集 的 过 程 。 


表 2.1 移动 数据 对 比 


数据 类 型 间隔 位 置 精 度 记录 范围 朋友 关系 | 公开 性 


GPS 轨迹 S IR] 室外 低 主动 


an 


基站 定位 数据 低 基站 覆盖 区 域 。 | 通讯 录 低 | mah 
WiFi 定 位 数据 | do | 较 高 | WiEFi 部 署 区 域 | 无 低 ”| 被 动 
货币 交易 数据 : 高 货币 交易 场所 ”| 无 高 “| Wa 
公交 卡 数据 高 公交 站 点 X 低 | 被 动 
RU tt | rs 


签到 序列 数据 S 高 任何 地 方 有 高 主动 
iR: 公交 卡 数据 、 图 片 轨 迹 数据 等 的 位 置 可 以 具体 到 兴趣 地 点 。 在 兴趣 地 点 中 ， 不 仅 有 精 
确 的 物理 位 置 ， 还 有 语义 信息 。 


由 于 收集 意愿 的 不 同 ， 可 能 会 导致 所 收集 的 数据 在 时 间 和 空间 上 均 呈 现 不 同 的 粒度 ， 数 据 的 缺失 性 也 存在 很 大 的 差异 性 。 大 
部 分 被 动 记录 的 数据 ， 由 于 较 难 受到 人 们 意志 的 影响 ， 因 此 位 置 数据 较为 连续 ， 时 间 粒 度 较 小 ， 缺 失 性 较 低 。 比 如 ， 对 于 基站 定 
位 数据 ， 只 要 用 户 使 用 手机 打 电 话 或 发 短信 和 就 都 会 被 记录 的 。 不 过 若 没 有 任何 的 通信 需求 ， 则 用 户 的 位 置 无 法 被 记录 ， 因 此 在 位 
置 轨迹 上 存在 一 定 的 缺失 性 。 而 针对 主动 记录 的 数据 ， 出 于 隐私 的 原因 和 趣味 性 程度 的 差异 性 ， 可 能 大 部 分 的 位 置 数据 都 是 缺失 
的 ， 位 置 的 连续 性 就 很 弱 ， 时 间 的 粒度 也 就 更 大 。 比 如 ， 大 部 分 人 都 不 愿意 在 家 里 签到 ;人 们 一 般 在 景点 附近 才 拍照 来 与 朋友 们 


分 享 游玩 的 心情 。 


移动 数据 具有 如 下 特性 : 


: 本 地 化 特性 ”本 地 化 特性 是 指 人 们 在 不 同城 市 中 具有 不 同 的 移动 行为 模式 ， 特 别 地 ， 人 们 在 本 地 城市 和 外 地 城市 上 的 行为 
具有 本 质 性 区 别 。 在 任何 一 个 城市 ， 人 们 都 可 被 分 为 本 地 人 和 外 地 人 。 最 简单 的 方法 是 为 每 个 人 确定 居住 城市 ， 把 居住 城市 作为 
人 们 的 本 地 城市 。 另 外 一 种 方法 是 通过 判定 移动 数据 的 使 用 情况 ， 检 查 人 们 在 各 个 城市 的 停留 时 间 和 访问 模式 来 判定 是 否 为 本 地 
人 。 根 据 这 种 区 分 ， 本 地 人 和 外 地 人 在 访问 城市 的 兴趣 地 点 时 究竟 有 什么 样 的 差异 呢 ? 先 看 看 图 2.1 来 感受 一 下 北京 本 地 人 与 外 
地 人 的 差异 性 及 上 海 本 地 人 与 外 地 人 的 差异 性 。 对 于 本 地 人 来 说 ， 由 于 他 们 对 本 地 城市 的 熟悉 度 较 高 ， 所 以 他 们 不 仅 会 访问 居住 
地 和 工作 地 周边 的 兴趣 地 点 ， 也 会 探索 新 的 兴趣 地 点 ， 因 而 ， 本 地 人 的 访问 地 点 分 布 非常 广 ; 相反 ， 外 地 人 对 城市 不 够 熟悉 ， 他 
们 更 多 地 依赖 于 兴趣 地 点 的 热度 ， 更 多 地 去 访问 那些 很 流行 的 地 点 ， 因 而 他 们 的 访问 区 域 是 较为 集中 的 。 而 且 这 种 直觉 完全 可 以 
利用 统计 量 反 映 出 来 。 比 如 说 ， 外 地 人 群体 层面 对 地 点 的 访问 次 数 分 布 相 比 较 于 本 地 人 群体 ， 应 该 更 加 不 均匀 。 为 此 ， 可 分 别 统 
计 本 地 人 和 外 地 人 对 每 个 地 点 的 访问 频率 ， 绘 制 出 洛 伦 诊 曲 线 ， 来 看 地 点 访问 次 数 分 布 的 均匀 性 ， 如 图 2.2 所 示 。 洛 伦 益 曲线 原 
本 是 为 表示 财富 分 布 的 不 平等 性 而 提出 的 。 对 角 虚 线 代表 的 是 财富 完全 平等 时 的 曲线 。 洛 伦 兹 曲线 和 对 角 线 之 间 的 面积 代表 不 平 
等 的 大 小 。 在 图 2.2 中 ， 横 坐标 表示 的 是 地 点 的 百分比 ， 而 纵 坐 标 表示 的 是 相应 地 点 的 访问 频率 之 和 与 在 所 有 地 点 的 访问 频率 之 
和 的 比例 。 从 图 2.2 可 以 看 到 ， 北 京 的 外 地 人 对 地 点 访问 频率 的 分 布 更 加 集中 ， 更 加 不 均匀 ， 即 只 访问 少数 的 几 个 非常 流行 的 地 
点 。 不 过 上 海 的 外 地 人 和 本 地 人 的 差别 则 较 小 ， 不 过 这 种 本 地 化 特性 仍然 是 存在 的 。 移 动 数据 的 本 地 化 特性 反映 本 地 人 和 外 地 人 
访问 模式 上 的 差异 性 ， 要 求 移动 数据 挖掘 分 别针 对 本 地 人 和 外 地 人 进行 考虑 ， 其 至 还 要 为 本 地 人 和 外 地 人 设计 不 同 的 挖掘 算法 。 


比如 在 兴趣 地 点 推荐 中 ， 有 专门 的 算法 1 被 设计 来 为 外 地 人 推荐 地 点 ， 称 为 出 城 推荐 。 


上 海 本 地 人 模式 上 海外 地 人 模式 


图 2.1 地 点 访问 频率 的 密度 图 


iki 对 每 幅 图 都 做 了 归 一 化 ， 热 度 只 反映 相对 热度 
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图 2.2 北京 (a) 和 上 海 (b) 的 外 地 人 和 本 地 人 对 地 点 访问 次 数 的 洛 伦 效 曲线 


. 地 点 访问 次 数 的 震 律 分 布 ”在 本 地 化 特性 中 ， 群 体 层面 访问 地 点 会 表现 出 异 质 性 ， 而 个 体 层面 访问 地 点 时 也 会 呈现 这 种 异 
质 性 。 特 别 地 ， 每 个 用 户 只 会 经 常 访问 少数 几 个 地 点 ， 而 只 会 偶尔 访问 其 他 地 点 。 将 地 点 按照 访问 次 数 从 高 到 低 进 行 排 序 ， 那 么 
第 k 个 访问 地 点 的 访问 频率 fi 满足 Zipf 定 律 ， 即 


fa ~ ks (2. l1) 


CER MAGEE POA DARN. BS eA P|), (C120. RARA É JA O ERRADA 
fkáj3 5 M EE, BHEERRTAS SAAREKS, BPA T 133 ERE 00 3E RR ao WALA PrO 
F0 fi AREE ZUR dS Hope o de E oup é X A, TEM PLE SG BEDARD Hp (f) ~f 09 。 这 种 访 
问 次 数 满足 震 律 分 布 的 移动 数据 ， 使 得 在 设计 移动 模型 和 推荐 算法 时 需要 特别 考虑 。 比 如 Pitman-Yor 过 程 被 用 来 做 移动 建 模 [ ， 


因为 它 刚好 能 满足 访问 次 数 的 震 律 分 布 特性 。Pitman-Yotr 过 程 曾 被 用 于 在 语言 模型 之 中 建 模 单词 之 间 的 依赖 关系 ， 而 根据 Zipbf 等 
人 的 研究 ， 单 词 的 使 用 频率 也 是 满足 震 律 分 布 的 ， 且 刚好 与 移动 数据 中 的 移动 建 模 相 对 应 。 


空间 聚集 效应 ”空间 又 集 效 应 是 地 理学 第 一 定律 [站 的 一 种 表现 形式 ， 表 示 一 个 用 户 所 访问 的 地 点 相互 之 间 不 是 独立 的 ， 
而 是 受 距 离 远近 约束 的 。 这 种 空间 聚集 效应 可 以 通过 两 种 方式 进行 解释 。 从 物理 学 角度 出 发 ， 通 过 随机 游 走 进行 建 模 ， 其 关注 的 
一 个 统计 量 是 相 邻 访问 地 点 之 间 的 距离 。 根 据 对 美 钞 交 易 数据 ! 引 、 基 站 定位 数据 14、GPS 轨 迹 [ 上 等 的 研究 ， 可 以 发 现 连续 访问 
地 点 之 间 的 距离 满足 震 律 分 布 ， 表 示人 们 移动 时 经 常 访问 距离 当前 地 点 不 远 的 地 点 ， 偶 尔 可 能 会 访问 远 处 的 地 点 。 图 2.3a 给 出 了 
移动 距离 满足 轿 律 分 布 的 轨迹 图 ， 明 显 地 展示 出 了 聚集 效应 。 虽 然 随机 游 走 模型 具有 “漂亮 ”的 表示 公式 ,但 是 数据 中 很 多 实际 
特性 无 法 表示 出 来 。 因 而 ， 从 数据 中 发 现 移动 模式 便 成 为 一 种 更 为 实际 的 方法 。 空 间 聚 集 效应 可 以 直接 从 数据 中 发 现 ! 引 ， 如 图 
2.3b 所 示 。 这 种 模式 是 通过 聚 类 方法 实现 的 。 每 个 发 现 的 类 灸 都 可 以 认为 是 用 户 移动 模式 中 的 一 个 主要 枢纽 ， 比 如 家 或 工作 场 
所 ， 人 们 在 这 些 主要 枢纽 之 间 和 移动]。 同 时 ， 人 们 会 在 某 些 时 候 在 这 些 主要 枢纽 周围 访问 其 他 的 地 点 ， 诸 如 购物 中 心 、 餐 馆 
等 。 这 种 空间 的 聚集 效应 对 于 移动 建 模具 有 重大 的 影响 ， 使 得 在 用 户 移动 建 模 和 兴趣 地 点 推荐 中 必须 考虑 这 种 特性 。 比 如 在 用 户 
移动 建 模 中 ， 时 间 依 赖 的 地 理 空 间 混合 模型 被 提出 。 在 兴趣 地 点 推荐 中 ， 空 间 聚 集 效 应 的 建 模 ， 特 别 是 与 传统 协同 过 滤 方 法 的 结 
合 ， 成 为 了 重要 的 研究 问题 。 


0 —9 i020 8 DET CGU SENSE 
a) 莱 维 飞行 轨迹 图 b) 多 中 心 的 轨迹 分 布 


图 2.3 空间 聚集 效应 特性 说 明 


规律 性 ”规律 性 包括 周期 性 和 序列 相关 性 。 周 期 性 是 指 事件 间隔 一 定时 间 定 期 发 生 ， 包 括 日 模式 、 周 模式 等 。 比 如 说 ， 学 
生 早 上 8 点 30 分 去 教学 楼 上 课 ，12 点 去 食堂 吃饭 ， 了 晚上 8 点 去 上 自习 等 。 这 种 周期 性 是 可 以 测量 的 。 给 定 任意 一 个 地 点 ， 估 计 后 续 
访问 时 间 与 首次 访问 时 间 间 隔 的 概率 ， 称 为 返回 概率 。 比 如 关于 12 点 去 食堂 吃饭 ， 假 设 首次 是 某 天 的 12 点 ， 第 二 次 是 后 一 天 的 12 
点 ， 那 么 这 个 间隔 即 为 24 小 时 ， 第 三 次 是 后 两 天 的 12 点 ， 此 时 的 间隔 为 36 小 时 。 虽 然 对 于 不 同 的 地 点 ， 访 问 时间 区 间 有 所 不 同 ， 
但 是 可 通过 计算 和 首次 访问 时 间 的 差 值 将 它们 对 齐 。 将 多 个 地 点 的 时 间 间 隔 放 在 一 起 ， 便 可 以 估计 每 个 人 的 规律 性 。 这 种 规律 性 
已 经 在 基站 定位 数据 和 移动 社交 网 络 中 被 度量 出 来 ， 如 图 2.4 所 示 。 该 图 显示 这 些 移动 数据 具有 很 强 的 日 模式 ， 而 且 在 不 同 的 移 
动 数据 上 周期 性 强度 不 同 。 基 于 这 种 时 间 的 规律 性 ， 可 以 设计 周期 性 的 预测 模型 来 预测 移动 模式 。 除 了 周期 性 是 一 种 规律 性 以 
外 ， 序 列 相 关 性 也 是 规律 性 的 一 种 重要 指标 。 序 列 相关 性 是 指 下 一 个 访问 的 位 置 是 与 访问 地 点 历史 序列 相关 的 。 如 果 假设 只 与 前 
开 个 位 置 相 关 ， 那 么 这 个 序列 相关 性 便 是 氏 +1 阶 的 马尔 可 夫 性 。 在 不 同 的 移动 数据 中 ， 这 种 序列 相关 性 的 强度 也 是 不 同 的 。 这 种 
序列 相关 性 的 强度 直接 对 应 了 移动 数据 的 宛 余 性 和 可 预测 性 [中 ， 在 序列 相关 性 强 的 移动 数据 中 ， 兄 余 性 较 高 ， 可 预测 性 也 较 
高 ， 规 律 性 就 比较 高 。 序 列 相关 性 可 以 通过 序列 焙 ( 科 尔 莫 洛 夫 灶 ) 来 度量 ， 有 具体 的 细节 可 以 参考 3.2.1 节 。 对 于 不 同 序列 相关 性 
的 移动 数据 ， 所 设计 的 用 户 移动 建 模 将 采用 不 同 复杂 度 的 预测 模型 。 对 于 序列 相关 性 较 高 的 移动 数据 ， 可 以 使 用 更 高 阶 的 马尔 可 
夫 模 型 来 为 移动 模式 建 模 ， 比 如 在 GPS 轨迹 中 ， 二 阶 的 马尔 可 夫 模 型 被 用 于 下 一 地 点 的 预测 上 1。 而 在 移动 社交 网 络 中 ， 带 有 回 
iÉ (fall-back) 的 一 阶 马 尔 可 夫 模 型 则 被 用 作 未 来 地 点 的 预测 ， 而 且 一 阶 的 马尔 可 夫 性 的 强度 很 弱 ， 能 起 到 的 作用 很 小 。 
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图 2.4 ”移动 社交 网 络 和 基站 定位 数据 的 周期 性 


i: 左 图 给 出 了 移动 社交 网 络 的 周期 性 、 右 图 (对 应 Uset 图 例 ) 给 出 了 基站 定位 数据 的 周期 性 。 右 图 中 的 RW 图 例 代 表 的 是 
随机 游 走 的 返回 概率 分 布 。 


.新颖 性 探索 “新颖 性 探索 指 人 们 不 总 是 按照 过 往 的 惯例 访问 熟悉 地 点 ， 偶 尔 也 会 去 探索 一 些 新 颖 地 点 。 根 据 参 考 文 
献 [114]， 即 使 在 规律 性 较 高 的 基站 定位 数据 中 ， 也 只 有 939% 的 可 预测 性 。 剩 下 79% 的 行为 是 无 法 基于 个 人 历史 行为 进行 预测 的 ， 
它 被 认为 是 在 探索 性 行为 范畴 之 内 的 。 新 颖 性 探索 说 明 人 们 访问 的 不 同 地 点 数目 是 随 着 时 间 而 增长 的 ， 根 据 宋 超 明 等 人 的 研究 发 


3477. RIAS (t) 表示 在 t 时 刻 之 前 访问 的 不 同 地 点 数 ， 满 足 


S@) =? (2.2) 


- 其 中 h=0.6 土 0.02。 这 种 规律 背后 的 解释 是 随 着 时 间 的 增长 ， 人 们 对 城市 及 周边 环境 的 熟悉 程度 逐渐 得 到 提升 ， 减 少 了 人 
们 探索 新 地 点 的 机 会 ， 或 者 使 得 人 们 需要 花费 更 大 的 代价 才能 进行 探索 。 有 趣 的 是 ， 这 种 新 颖 性 探索 趋势 是 可 以 被 估计 出 来 的 。 
比如 在 参考 文献 [113] 中 所 提 到 的 ， 新 颖 性 探索 的 概率 和 访问 过 的 地 点 数 有 关 ， 满 足 


Pr(explore) = pS” (2:3) 


- 其 中 S 就 是 人 们 访问 的 不 同 地 点 数 。 而 在 参考 文献 【61] 中 ， 新 颖 性 探索 被 形式 化 为 一 个 二 分 类 问题 ， 即 判断 下 一 访问 的 
地 点 是 否 在 移动 数据 的 历史 之 中 ， 具 体 可 以 细 看 3.2.6 节 的 内 容 。 这 种 新 颖 性 探索 特性 在 移动 数据 挖 气 中 需要 特别 考虑 ， 这 不 仅 是 
提升 移动 行为 预测 能 力 的 一 种 重要 保障 ， 而 且 是 基于 降 维 技术 进行 用 户 画像 的 一 种 依据 ， 其 本 身 也 是 移动 数据 挖 据 的 一 项 重要 内 
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2.2 ”缺失 数据 补 全 


前 面 提 到 过 移动 数据 有 多 种 类 型 ， 可 能 是 人 们 携带 智能 设备 收集 的 GPS 轨 迹 数 据 ， 也 可 能 是 利用 公交 卡 乘 坐 的 公交 车 或 地 铁 
的 信息 ， 还 可 能 是 人 们 在 移动 社交 网 络 中 分 享 的 地 点 访问 信息 ， 甚 至 是 收集 基站 通信 时 留 下 的 日 志 信息 解析 出 的 位 置 数据 。 在 这 
些 移动 数据 中 ， 数 据 缺 失 是 一 种 常见 的 现象 。 比 如 ， 当 人 们 进入 高 楼 大 厦 时 ， 智 能 设备 无 法 很 好 地 与 卫星 定位 系统 进行 通信 ， 使 
得 GPS 可 能 很 难 对 人 们 进行 精确 的 定位 。 尽 管 结合 基站 定位 或 Wi-Fi 定 位 ， 定 位 的 方法 得 到 了 很 大 的 改进 ， 但 是 问题 并 没有 得 到 
彻底 的 解决 。 因 而 ， 人 们 通过 智能 设备 获取 的 位 置 数据 仍 可 能 是 缺失 的 或 不 精确 的 。 再 比如 ， 人 们 在 用 公交 卡 乘坐 公交 车 时 ， 大 
部 分 仍然 可 能 是 只 在 上 和 车 的 时 候 刷 卡 ， 从 而 无 法 获得 人 们 下 车 的 地 点 。 再 比如 说 ， 虽 然 人 们 愿意 通过 移动 社交 网 络 等 分 享 自己 的 
位 置信 息 ， 但 是 涉及 隐私 地 点 、 无 趣 地 点 的 访问 时 ， 人 们 可 能 会 故意 地 隐藏 ， 这 也 会 造成 移动 数据 的 缺失 。 而 且 现 在 人 们 分 享 位 
置信 息 的 形式 多 种 多 样 ， 可 能 是 从 数据 库 中 选择 出 来 的 ， 也 可 能 是 人 们 自己 创建 的 ， 但 人 们 在 创建 的 时 候 并 没有 填充 相关 的 语义 


信息 ， 这 也 会 造成 语义 数据 的 缺失 。 最 后 ， 人 们 在 打 电 话 或 发 短信 时 ， 会 通过 与 基站 的 通信 和 留 下 自己 的 位 置 ， 但 是 人 们 只 有 很 少 
一 部 分 时 间 是 用 于 打 电 话 或 发 短信 的 ， 因 而 有 大 量 时 间 的 位 置信 息 也 是 缺失 的 。 针 对 这 些 缺 失 的 情形 ， 有 些 是 可 以 通过 技术 手段 
解决 的 ， 有 些 却 是 无 法 通过 技术 手段 解决 的 。 在 这 些 可 以 用 技术 手段 解决 的 缺失 问题 中 ， 有 些 可 以 通过 时 间 序 列 中 的 值 缺失 解决 
方法 来 解决 ， 有 些 可 以 通过 和 矩阵 填充 的 方法 来 解决 ， 还 有 些 可 能 需要 根据 实际 情况 运用 数据 挖掘 的 方法 进行 分 析 。 下 面 将 介绍 两 
种 重要 的 缺失 数据 补 全 解决 方案 。 


2.2.1 公交 卡 的 上 下 点 补 全 


智能 卡 ， 比 如 人 信用卡、 校园 卡 、 公 共 交 通 卡 ， 包 含 了 丰富 的 人 的 行为 信息 。 特 别 是 记录 了 人 的 移动 信息 的 智能 公交 卡 ， 里 面 
丰富 的 数据 对 于 很 多 行业 的 人 来 说 都 是 极 具 吸 引力 的 ， 比 如 城市 规划 者 和 提供 地 点 相关 服务 的 从 业 人 员 。 近 些 年 基于 智能 公交 卡 
数据 的 研究 有 很 多 ， 诸 如 行为 建 模 和 个 性 化 推荐 工作 。 但 是 由 于 许多 智能 系统 的 搭建 都 是 以 盈利 为 目的 的 ， 或 者 系统 记录 数据 
是 为 了 方便 管理 ， 记 录 的 数据 往往 不 够 全 面 。 比 如 单一 票 价 的 公交 系统 ， 一 般 就 不 会 记录 乘客 上 车 和 下 车 的 站 点 ， 对 于 这 种 数 
据 ， 如 果 能 恢复 出 乘客 完整 的 出 行路 线 ， 将 非常 有 利于 后 续 的 研究 。 


s 
只 


在 公交 系统 的 数据 中 存在 三 种 平行 的 数据 空间 : 消费 空间 M、 时 间 空 间 T 和 地 理 空间 S。 图 2.5a 展 示 了 三 种 不 同 的 空间 之 间 
的 对 应 关系 。 消 费 空间 包括 了 卡 的 余额 、 充 值 金额 和 一 次 乘 车 行为 的 消费 金额 ， 卡 的 余额 会 在 充值 后 上 升 ， 在 乘 车 后 下 降 ， 并 且 
消费 和 充值 行为 都 对 应 了 时 间 空间 里 的 一 些 点 (如 图 2.5a 所 示 ) 。 在 乘 车 过 程 中 ， 乘 客 的 地 理 移 动 和 时 间 空 间 也 是 相互 对 应 的 ， 
图 2.5a 中 ， 时 间 空 间 中 的 实 线 表示 乘 车 行为 ， 虚 线 表 示 在 这 段 时 间 里 面 乘 客 没 有 乘 车 。 


A dx os 1 €(— a 
消费 空间 ”| mi AO, 
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图 2.5 三 个 空间 之 间 的 对 应 关系 和 邻近 约束 
除了 有 乘坐 公交 车 的 用 途 以 外 ， 很 多 智能 公交 卡 还 可 以 被 用 来 乘坐 出 租车 甚至 去 商场 消费 ， 使 得 公交 系统 记录 的 数据 在 消费 
空间 上 常常 是 不 连续 的 。 为 了 保证 消费 空间 的 连续 性 ， 需 要 将 个 人 消费 记录 进行 分 割 。 
定义 1 (ZAH) 用 R= {x » to, 75 ty} Ria fib TF AID, 用 tt , to, my ty € 表示 时 间 序 列 ， Fle > €2» "75 Cy € MAR 
消费 记录 ， 用 c E), c (&) , +, c (E) CTR AMAA RE, 55, co, MAEM, Ab (t) 表示 智能 卡 在 时 间 tE 处 的 


余额 ， 那 么 如 果 对 于 1<is<n1，R 满 足以 下 条 件 时 则 被 称 为 是 一 个 分 割 段 


baa 十 Ci = b; 十 C; (2. 4) 


在 这 里 bi 是 第 i 次 乘 车 行为 后 的 卡 中 余额 ， 比 如 OF 


这 表示 了 在 第 i 次 和 第 i+1 次 乘 车 行为 之 间 所 有 充值 的 总 额 。 

通过 这 样 的 分 割 算法 ， 一 个 分 割 段 中 的 消费 记录 就 是 连续 的 了 。 值 得 强调 的 是 ， 这 里 的 每 个 分 割 段 中 都 可 以 包含 很 多 天 的 数 
据 。 在 一 个 分 割 段 中 ， 可 以 将 乘客 的 行为 定义 成 两 种 : 行程 内 转移 和 行程 外 转移 。 

定义 2 (行程 内 转移 和 行程 外 转移 ) ”给 定 一 个 分 割 段 S=1H，LD，.…，1}， 其 中 1 是 一 条 从 上 车 地 点 oj 到 下 车 地 点 di 的 公交 行 
程 ， 我 们 称 oj 一 dj 是 行程 内 转移 ， 乘 客 在 这 期 间 的 移动 完全 受 公 交 的 限制 〈 顺 着 公交 线路 延伸 ) ， 两 个 连续 的 行程 之 间 的 行为 称 


为 行程 外 转移 ， 比 如 ，di 一 0i41。 


乘客 在 行程 内 和 行程 外 的 转移 都 具有 很 多 种 可 能 性 ， 比 如 在 一 次 乘 车 行为 中 ， 假 设 该 条 公交 车 线路 有 n 个 不 同 的 站 点 ， 并 且 
乘客 的 上 车 站 和 下 车 站 不 同 ， 那 么 这 次 乘 车 就 有 n (n-1) 种 可 能 的 转移 。 给 行程 内 和 行程 外 的 行为 加 上 在 不 同 空间 (消费 空 
间 、 时 间 空 间 、 地 理 空间 ) 的 限制 ， 可 以 大 大 减 小 可 能 的 转移 数目 。 

距离 约束 (对 于 行程 外 转移 ) ”城市 里 人 们 的 换 乘 距离 往往 是 有 上 限 的 。 如 图 2.5b 所 示 ，11 和 2 是 乘客 u 的 两 趟 连续 的 公交 
行程 ， 如 果 u 只 通过 步行 来 完成 [1 和 |2 之 间 的 换 乘 ， 那 么 可 以 认为 这 个 距离 不 会 超过 某 个 范围 。 假 设 乘 客 u 从 A 和 B 点 出 发 的 步行 
范围 是 两 个 以 距离 t 为 半径 的 圆 形 ， 分 别 以 A 和 B 点 为 圆心 ， 那 么 通过 三 角 不 等 式 可 以 得 出 ，A 和 B 点 的 距离 应 该 小 于 2r。 在 一 次 行 
程 外 行为 中 ， 满 足 距离 约束 的 换 乘 站 可 以 是 0 对 (乘客 可 能 通过 别 的 交通 方式 从 11 移 动 到 lz2， 并 且 距 离 超过 了 2r) ， 这 种 行程 外 转 
移 的 节点 被 称 为 漂移 点 ， 从 漂移 点 将 分 割 段 分 割 成 两 个 子 段 ， 这 样 每 个 分 割 段 不 仅 在 消费 空间 上 是 连续 的 ， 在 地 理 空间 上 也 是 连 
续 的 。 

票 价 限 制 (对 于 行程 内 转移 ) ”公交 系统 中 通常 有 两 种 公交 线路 : 阶梯 票 价 线路 和 非 阶梯 票 价 线路 。 对 于 非 阶梯 票 价 线路 ， 
每 次 行程 的 票 价 都 是 固定 的 ， 而 对 于 阶梯 票 价 线路 ， 票 价 则 是 根据 上 车 和 下 车 站 点 的 距离 来 决定 的 ， 比 如 北京 的 阶梯 票 价 计算 方 
式 为 e=a+b.max (|boarding-alighting|-c, 0) ， 其 中 e 是 票 价 ，a、b、c 是 系统 参数 ， 对 于 不 同 的 公交 线路 有 不 同 的 数值 ， 这 
个 公式 说明 当 行 程 不 大 于 c 干 米 时 ， 票 价 是 a， 否 则 每 多 1 干 米 需要 多 付 b 元 。 实 验 中 计算 每 次 行程 的 可 能 票 价 ， 并 且 与 乘客 的 真 
实 消费 相 比较 ， 可 以 大 大 减少 可 能 的 行程 数目 。 

时 间 约 束 (对 于 行程 内 和 行程 外 转移 ) ”如 北京 的 公交 系统 ， 非 阶梯 票 价 线路 会 记录 乘客 的 上 车 时 间 ， 阶 梯 票 价 线路 会 记录 
乘客 的 下 车 时 间 。 虽 然 每 段 行程 只 记录 一 次 时 间 ， 我 们 仍然 可 以 用 时 间 约 束 来 过 滤 掉 很 多 不 可 能 的 转移 。 用 t1、t2、t3 分 别 表示 
三 段 行 程 i= (oi d) (i=1, 2, 3) 的 时 间 戳 。 如 图 2.6a 所 示 ，11 和 2 是 两 条 非 阶 梯 票 价 线路 ，13 是 一 条 阶梯 票 价 线路 。 可 以 用 
距离 和 每 段 公 路 的 限 速 来 估计 o 和 di 之 间 的 最 小 时 间 ^ti。 那 么 图 2.6a 中 的 线路 需要 满足 以 下 条 件 : 
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图 2.6 ”时 间 约 束 和 线性 CRE 的 观察 序列 及 隐藏 序列 


有 约束 的 半 监 督 CRF 模 型 ”条件 随 机 场 (CRFs) [1] 在 数据 挖掘 和 机 器 学 习 领 域 中 有 着 广泛 的 应 用 ， 特 别 是 线性 CRF 模 型 
给 定 了 一 个 分 割 段 的 候选 行程 后 ， 恢 复数 据 的 问 
个 分 割 段 S={I1，|2， 


定义 了 由 观察 序列 到 隐藏 序列 的 条 件 概率 ， 构 成 了 一 个 无 向 的 图 模型 。 事 实 上 ， 


题 就 转化 成 了 在 序列 中 对 数据 进行 标记 的 问题 了 。 具 体 来 说 ， 是 先 构造 一 个 线性 CRF 模 型 : 给 定 一 
m-1) 来 表示 观察 序列 ， 也 就 是 说 ， 连 续 两 条 线路 之 间 的 行程 外 转移 在 CRF 序 列 


wey im, FBG (li l1) (对 于 i=1, 2, ..., 
VR MTERA RRRA 


中 被 包含 在 一 个 节点 中 (如 图 2.6b 所 示 ， 在 这 里 一 个 节点 表示 两 条 线路 ) ， 用 > 
(i=1, 2, .., m-1) , 序列 y={y1，y2，…，ym-1} 就 是 隐藏 序列 (也 称 标记 序 


iis yl. 


一 个 行程 外 转移 的 三 元 组 (oi，di，oi+1) 


列 ) 。 
对 于 标记 数据 足够 多 的 CRF 序 列 ， 通 常 使 用 EM 算法 或 梯度 法 来 训练 对 数 似 然 函 数 
， 25 
LAD = >) logro” | x ) — F (2. 6) 
O 


j=l 


其 中 D 是 训练 序列 ，n 是 长 度 。 对 于 标记 数据 不 够 多 的 模型 ， 可 以 使 用 有 约束 的 半 监 督 CRF 模 型 来 解决 问题 。 具 体 来 说 ， 给 


定 一 个 约束 方程 G (y，x) 和 一 个 未 标记 的 数据 集 U， 广 义 期 望 标准 可 以 定义 为 
OA DU) = LA, D) 一 SCGEya[E olao[GC V] 27 


其 中 ?是 数据 集 u 的 经 验 分 布 ，E [.] 表示 期 望 值 ，S 是 表示 模型 期 望 和 目标 期 望 之 间 的 差 值 的 得 分 函数 。 这 个 函数 可 以 用 


梯度 法 来 优化 。 


[1] J Lafferty, A McCallum, F Pereira.Conditional random fields: Probabilistic models for segmenting and labeling sequence data [C] .In 


Proceedings of the eighteenth international conference on machine learning, ICML, 2001. 


2.2.2 ”地 点 类 别 补 全 


根据 参考 文献 [139] 中 提供 的 统计 信息 ， 在 移动 社交 网 络 Whrrl 和 Foursquare 中 ， 大 约 有 309% 的 地 点 是 缺失 语义 信息 的 。 

语义 信息 对 后 续 的 挖掘 具有 重要 的 意义 ， 因 而 ， 人 迫切 需要 对 这 些 语义 信息 进行 填充 。 填 充 的 可 行 性 来 自 于 “具有 类 似 语义 的 地 点 
具有 相似 的 模式 ”的 发 现 ， 比 如 说 大 家 去 餐馆 吃 午饭 的 时 间 基 本 上 都 是 中 午 。 为 此 ， 叶 懋 (音译 ) 等 人 在 参考 文献 [139] 中 将 
填充 问题 归结 为 一 个 多 标签 分 类 问题 ， 对 每 一 个 地 点 的 每 个 类 别 标 签 ， 均 采用 二 分 类 的 算法 进行 分 类 。 在 分 类 器 的 特征 中 ， 作 者 
提出 利用 地 点 的 显 性 模式 和 相似 地 点 的 隐 性 相关 性 。 显 性 模式 是 针对 来 自 某 个 地 点 的 所 有 访问 数据 得 到 的 统计 信息 ， 比 如 访问 时 
间 分 布 、 访 问 次 数 。 由 于 带 有 不 同 语义 标签 的 地 点 可 能 会 有 不 同类 型 的 时 间 分 布 ， 因 而 可 以 利用 地 点 的 时 间 分 布 来 填充 语义 信 

息 。 举 例 来 说 ， 图 2.7a 和 图 2.7b 给 出 了 Whrr 茹 据 上 关于 学 校 类 地 点 和 酒吧 类 地 点 在 一 个 星期 的 不 同 天 中 的 分 布 ， 以 及 餐馆 和 商 
店 在 一 天 的 不 同 小 时 中 的 分 布 。 可 以 看 到 酒吧 类 地 点 的 访问 时 间 更 多 地 集中 在 周末 ， 而 学 校 类 的 地 点 则 更 多 地 分 布 在 工作 日 中 。 
同样 ,不 同 地 点 的 访问 频率 也 有 所 不 同 ， 比 如 说 ， 对 于 个 人 来 讲 ， 医 院 的 访问 频率 相 较 于 餐馆 来 说 要 低 很 多 。 因 而 ， 地 点 的 连续 
两 次 访问 的 时 间 间 隔 也 是 一 个 重要 的 指标 。 不 过 由 于 移动 社交 网 络 数据 中 的 稀疏 性 ， 这 个 统计 指标 可 能 会 有 较 大 的 偏差 ， 甚 至 对 
于 很 多 地 点 无 法 计算 。 为 此 ， 可 以 考虑 用 地 点 的 总 访问 人 数 和 单个 用 户 的 最 大 访问 次 数 来 进行 替代 。 图 2.7c 和 图 2.7d 给 出 了 具有 
不 同 语义 信息 的 地 点 的 分 布 差异 性 。 愿 意 和 大 家 分 享 自己 在 医院 的 人 是 非常 少 的 ， 但 是 愿意 分 享 去 餐馆 就 餐 的 用 户 却 会 很 多 。 同 
样 ， 对 于 常人 来 说 ， 不 可 能 每 天 都 住 在 酒店 ; 但 是 民 以 食 为 天 ， 人 们 经 常 去 餐馆 便 是 可 能 的 。 
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图 2.7 地 点 的 访问 统计 


不 过 这 些 统计 信息 并 没有 刻画 地 点 之 间 的 相关 性 ， 使 得 缺乏 足够 访问 信息 的 地 点 无 法 被 很 好 地 语义 标注 。 因 而 ， 在 本 章 中， 
作者 提出 利用 相似 地 点 的 隐 性 相关 性 ， 将 具有 足够 多 访问 历史 地 点 的 语义 信息 传播 给 缺乏 足够 访问 信息 的 地 点 。 相 似 地 点 的 隐 性 
相关 性 是 通过 地 点 的 相似 性 网 络 来 刻画 的 ， 相 似 性 网 络 可 以 通过 用 户 访问 地 点 的 规律 性 来 构建 。 具 体 的 做 法 是 ， 它 首先 将 所 有 用 


边 的 权重 为 用 户 对 该 地 点 的 访问 次 数 ; 而 时 间 段 地 点 二 部 图 中 的 连 边 表示 地 点 在 这 个 时 间 段 内 被 访问 过 ， 边 的 权重 为 所 有 用 户 在 
该 时 间 段 中 访问 该 地 点 的 总 次 数 。 在 二 部 图 中 利用 带 重 启动 的 随机 游 走 !1， 可 以 估计 从 某 个 地 点 节点 开始 游 走 到 其 他 地 点 节点 的 
概率 。 特 别 地 ， 从 某 个 地 点 出 发 ， 要 么 沿 着 二 部 图 中 的 边 进 行 随机 游 走 ， 或 者 从 该 地 点 节点 重启 动 ， 直 到 收敛 为 止 。 假 设 对 于 任 
意 的 两 个 地 点 ji 利 j， 分 别 对 时 间 段 地 点 和 用 户 地 点 二 部 图 运用 带 重启 动 的 随机 游 走 获得 的 地 点 隐 性 相关 性 为 思 和 属 * 这 两 个 地 点 

的 隐 性 相关 性 通过 线性 加 权 的 方法 进行 结合 ， 得 到 地 点 i 和 j 的 最 终 的 隐 性 相关 性 汪 一 邓 一 99" 这 里 的 n 是 一 个 平衡 系数 。 基 于 
地 点 的 隐 性 相关 性 ， 可 构建 相关 地 点 的 有 向 图 网 络 。 特 别 地 ， 为 每 个 地 点 选取 最 相似 的 k 个 地 点 ， 每 个 地 点 和 k 个 最 近邻 的 地 点 

形成 相应 的 连 边 ， 边 权 不 变 。 给 定 这 种 相关 地 点 的 相似 性 网 络 ， 可 以 通过 类 似 于 半 监 督学 习 的 方法 来 进行 语义 标签 的 预测 。 特 别 


那么 Pr (yi-t|N;) 就 表示 从 地 点 i 的 k 最 近邻 地 点 推测 地 点 的 类 别 为 的 概率 。 这 个 概率 是 通过 如 下 公式 进行 迭代 估计 的 


Prot? Cy, = t| NM.) — m > r? Pr” (y= t | NN? 
JEN; 


TG — pe ) Pr (y, = 1| A^ (2. 8) 


V P" 


即 每 次 地 点 语义 类 别 估计 概率 都 是 在 上 次 的 概率 估计 基础 上 更 新 的 ， 其 中 ”总 EIU, Pr) (yet) 表示 
Pr (yi=t|Ni) 的 第 n 次 迭代 的 估计 。 PU ”一 AP “一 8 “是 加 权 系数 ， 其 中 7 为 一 个 在 0 和 1 之 间 的 常量 ， 而 c 为 小 于 1 的 非 负 
衰减 因子 。 而 且 由 于 不 同 语义 类 型 的 地 点 受 k 近 邻 的 影响 也 有 所 不 同 ， 所 以 8 是 与 类 别 相关 的 ， 使 得 具有 较 小 A/ 值 的 语义 类 别 
地 点 受 近邻 的 影响 较 大 ， 而 具有 较 大 8 值 的 语义 类 别 地 点 也 受 较 不 相似 的 地 点 的 影响 显著 。 在 获得 Pr (yi=tlNi) 后 ， 可 以 通过 
与 统计 指标 结合 的 方法 来 获得 最 佳 的 地 点 语义 信息 补 全 。 


[1] H Tong, C Faloutsos, J Y Pan.Fast random walk with restart and its appli-cations [C] .In Proceedings of ICDM’ 06, IEEE Computer 


Society, 2006. 


2.3 ”重要 地 点 检测 


很 多 移动 轨迹 数据 都 具有 非常 高 的 元 余 性 ， 比 如 ， 志 愿 者 收集 的 GPS 轨 迹 和 出 租车 的 GPS 轨 迹 都 是 间隔 几 秒 记录 一 次 GPS 
点 。 然 而 ， 这 些 移动 对 象 在 短 短 几 秒 内 乃至 十 几 秒 内 一 般 不 会 有 大 的 变化 。 另 外 ， 有 很 多 中 间 的 物理 ， 用 户 只 是 经 过 ， 并 不 感 兴 
趣 。 因 而 ， 需 要 对 所 收集 的 这 些 移动 轨迹 数据 进行 预 处 理 ， 抽 取出 用 户 感 兴趣 的 地 方 。 这 类 兴趣 地 点 应 该 具有 停留 时 间 较 长 的 特 
点 。 也 就 是 说 ， 这 类 兴趣 地 点 应 该 在 空间 维度 具有 聚集 效应 。 为 此 ， 大 部 分 先前 的 重要 地 点 检测 的 方法 是 在 时 间 约 束 的 情况 下 在 
空间 维度 进行 聚 类 。 这 类 工作 的 先驱 者 是 佐治 亚 理工 学 院 的 阿 什 布鲁克 和 斯 达 纳 教 授 。 他 们 在 文章 [2 中 提出 了 place (地 方 ) 
Allocation (地 点 ) 的 概念 ， 认 为 地 方 是 带 有 时 间 区 间 ( 即 停留 时 间 ) 的 GPS 位 置 ， 而 地 点 则 是 地 方 (place) 的 聚 类 。place 的 
检测 比较 简单 ， 首 先 需要 将 GPS 轨迹 中 在 顺序 上 邻接 的 距离 在 GPS 误差 范围 (10 米 以 内 ) 以 内 的 GPS 点 合并 ， 作 为 一 个 place， 
其 GPS 位 置 即 为 这 些 GPS 的 平均 值 ， 同 时 取出 该 place 在 轨迹 中 第 一 次 出 现 的 时 间 和 最 后 一 次 出 现 的 时 间 ， 这 两 个 时 间 之 间 的 时 
间 间 隔 作为 该 place 的 停留 时 间 。 他 们 的 文献 所 阐述 的 关于 place 的 聚 类 算法 类 似 于 mean-shift 聚 类 的 思想 。 即 每 次 从 一 个 place 


开始 ， 带 上 一 个 半径 ， 然 后 针对 所 有 存在 于 place 半 径 范围 内 的 place 点 来 计算 均值 。 这 个 均值 点 作为 新 的 place， 表 重复 上 述 过 
程 ， 直 到 均值 不 再 变化 为 止 。 这 个 时 候 就 找到 了 第 一 个 location。 然 后 把 这 个 location 相 关 的 place 点 删除 。 针 对 剩 下 的 place 点 


进行 上 述 聚 类 方法 ， 直 到 将 所 有 的 点 都 删除 完 。 图 2.8 给 出 了 聚 类 的 示例 。 关 于 聚 类 中 取 多 少 个 类 的 问题 ， 作 者 采用 了 绘制 聚 类 
个 数 随 着 半径 增长 的 图 ， 然 后 从 图 中 找到 拐点 处 (knee) 作为 最 终 的 聚 类 半径 。 这 里 的 拐点 和 数学 中 拐点 的 定义 不 同 。 数 学 中 


可 以 参考 该 文献 。 这 里 需要 注意 的 是 ， 聚 类 算法 是 不 考虑 时 间 上 的 约束 的 ， 即 不 管 这 两 个 place 在 访问 时 间 上 是 否 相隔 很 久 。 此 
外 ， 该 文献 中 还 考虑 了 location 的 地 理 层 次 性 问题 ， 并 定义 了 sublocation 的 概念 ， 并 应 用 上 述 类 似 的 聚 类 算法 在 每 个 location 


中 寻找 sublocation。 


图 2.8 ”地 点 聚 类 算法 示例 


i: 又 表 示 聚 类 的 中 心 。 空 心 小 圆 表 示 聚 类 内 的 点 ， 庶 线 代 表 上 一 步 的 聚 类 ， 实 线 表 示 当 前 步 的 聚 类 。 在 e 中 均值 不 再 变 


化 ， 所 有 的 空心 小 圆 均 属于 这 个 location。 


在 此 之 后 ， 很 多 相关 的 重要 地 点 检测 的 算法 是 PJI61LI8 先 后 被 提出 。 大 部 分 算法 的 思想 都 是 类 似 的 ， 可 能 location 和 
place 的 相关 概念 有 所 不 同 ， 或 者 是 把 location 的 形成 和 place 的 抽取 合并 为 一 个 过 程 。 比 如 在 参考 文献 [47，48] H, EHT 
一 种 基于 时 间 的 聚 类 方法 ， 这 种 聚 类 方法 不 仅 能 够 自动 确定 聚 类 的 个 数 ， 而 且 还 会 过 滤 掉 一 些 噪声 点 。 这 个 聚 类 算法 对 GPS 的 轨 
迹 流 进行 聚 类 ， 并 且 丢 弃 停留 时 间 很 短 的 那些 小 艇 。 特 别 地 ， 轨 迹 流 的 第 一 个 GPS 点 形成 一 个 当前 簇 ， 之 后 的 每 一 个 GPS 点 都 会 
与 当前 篮 的 所 有 GPS 点 进行 比较 ， 如 果 平 均 距离 大 于 某 个 阔 值 ， 则 会 形成 一 个 新 的 篮 ， 否 则 将 并 入 原来 的 艇 中 。 关 于 算法 中 的 时 
间 阔 值 和 距离 阔 值 的 确定 ， 同 样 是 通过 类 似 于 上 述 的 拐点 的 方法 来 获得 的 。 另 一 类 方法 始 于 参考 文献 [38] ， 其 中 提出 了 与 
place 类 似 概念 的 停留 点 (stay of point) 。 参 考 文献 [55, 69] 做 了 跟 进 ， 不 过 并 没有 在 重要 地 点 检测 这 个 问题 上 做 出 方法 的 
创新 。 停 留 点 定义 为 停留 了 一 段 时 间 的 某 个 地 方 。 从 字面 上 看 ， 这 个 词 由 于 有 “停留 ”， 列 含 了 时 间 概 念 ， 因 而 表述 更 加 贴切 ， 
因此 后 续 的 研究 中 被 使 用 得 更 多 。 停 留 点 依赖 于 两 个 参数 ， 一 个 是 停留 阔 值 ， 代 表 停留 的 最 少时 间 ; 另 一 个 是 距离 阔 值 ， 代 表 这 
个 地 方 的 最 大 地 理 范围 。 下 面 给 出 参考 文献 [38] 的 算法 框架 ， 如 图 2.9 所 示 。 算 法 中 的 函数 Medoid (R, i, j) 和 
Diameter (R, i, j) 是 在 集合 {rldrkER，ixk<j} 中 进行 计算 的 。 函 数 Diameter (R, i, j) 计算 集合 中 任意 两 个 GPS 记录 的 最 大 
距离 ， 而 Medoid (R, i, j) 确定 集合 中 的 某 个 位 置 ， 使 得 它 到 集合 中 所 有 点 的 最 大 距离 具有 最 小 值 。 


不 过 在 检测 停留 点 之 后 ， 从 不 同 轨迹 中 检测 出 来 的 停留 点 之 间 可 能 是 不 一 致 的 ， 即 有 些 离 得 很 近 的 停留 点 却 是 不 同 的 ， 被 赋 
予 了 不 同 的 停留 点 编号 ， 这 为 所 有 人 进行 用 户 移动 建 模 和 基于 移动 行为 进行 朋友 关系 预测 制造 了 很 大 的 困难 。 为 此 ， 与 斯 达 纳 教 
授 团队 的 研究 类 似 ， 也 需要 对 这 些 来 自 不 同 轨迹 的 停留 点 进行 聚 类 。 不 同 的 研究 工作 在 聚 类 算法 上 大 同 小 异 吕 [10| 一 般 都 是 利用 
K 均 值 或 类 似 于 DBSCAN 的 密度 聚 类 法 ， 而 且 一 般 是 具有 层次 性 的 ， 如 图 2.10 所 示 。 它 们 的 差异 性 主要 体现 在 使 用 的 特征 上 ， 比 
如 在 参考 文献 [6，55] 中 ， 使 用 停留 点 之 间 的 物理 距离 来 进行 聚 类。 而 在 参考 文献 [16] 中 ， 不 仅 使 用 了 距离 ， 还 使 用 了 停留 


点 的 语义 信息 ， 比 如 停留 点 的 访问 时 间 差 异性 、 停 留 时 间 差 异性 、 访 问 用 户 群 体 的 相似 性 ， 以 及 相关 语义 信息 。 


Input; raw location history. R—(r;; Output; a set of stays. S={ s; ) 
Initialize; i<-1. S Z 
while ;— R 

ji*-—mnnjs tria: 

ifí Diameter CR. i, J * 27 Almam ) 

i«—13-1; 
else 
begin 


j * <max j s.t. Diameter(R, i, j)XCA mam ; 
S--SU (Medoid(R, i, j *), tis tix); 
i<x-j* +1; 


图 2.9 基于 停留 点 的 重要 地 点 检测 算法 


© 代表 停留 点 Y 
© RRR RAC, 
Me TETA 


图 2.10 用 户 移动 数据 历史 上 的 层次 性 聚 类 
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2 4 语义 信息 标 ; 


在 重要 地 点 检测 之 后 ， 重 要 的 工作 就 是 进行 语义 标注 。 语 义 标注 可 以 包含 多 种 方法 ， 其 中 一 种 是 利用 活动 进行 标注 ， 比 如 从 
重要 地 点 中 带 评论 的 文本 信息 中 抽取 的 活动 []， 或 者 是 它 所 在 区 域 的 功能 区 块 所 BI] 册 ;另外 一 种 重要 的 方法 是 利用 附近 的 兴趣 点 
进行 标注 ， 这 种 标注 方法 也 称 为 地 点 命名 Dlloj。 下 面 我 们 将 从 这 两 个 方面 进 。 不 过 关于 活动 的 标注 方法 ， 从 文本 中 抽取 活 
动 将 涉及 文本 抽取 的 知识 ， 超 出 了 本 书 所 要 介绍 的 方法 ， 因 此 ， 在 此 只 介绍 如 何 确定 区 域 的 功能 区 块 。 


[1] V Zheng, Y Zheng, et al.Collaborative location and activity recommendations with gps history data [C] .In Proceedings of 
Www’ 10, ACM, 2010. 

2]J Yuan, Y Zheng, X Xie.Discovering regions of different functions in a city using human mobility and pois [C] .In Proceedings of the 
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3] NJ Yuan, Y Zheng, et al.Discovering urban functional zones using latent activity trajectories [J] .IEEE Transactions on Knowledge 
and Data Engineering, 2015, 27 (3) : 712-725. 

[4] T Hu, R Song, et al.Mining shopping patterns for divergent urban regions by incorporating mobility data [ C] .In Proceedings of 
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[5] D Lian, X Xie.Learning location naming from user check-in histories [C] .In Proceedings of GIS ” 11, ACM, 2011. 

[6] D Lian, X Xie.Mining check-in history for personalized location naming [J] .ACM Transaction Intelligent Systems 
Technology, 2014, 5 (2) : 32: 1-32: 25. 


24.1 区 域 功 能 标记 


快速 发 展 的 城市 化 进程 和 现代 文明 使 得 城市 中 形成 了 不 同 的 功能 区 域 ， 比 如 生活 区 域 、 商 业 区 域 、 教 育 区 域 等 ， 这 些 功能 区 


域 给 人 们 的 现代 城市 生活 带 来 了 很 多 便利 ， 也 为 对 大 城市 的 细节 化 了 解 提 供 了 新 的 视角 。 功 能 区 域 可 能 是 城市 的 规划 者 从 一 开始 
就 定义 好 的 ， 也 可 能 是 人 们 在 长 期 的 生活 中 慢 慢 形成 的 。 无 论 是 区 域 的 功能 还 是 区 域 的 规模 和 位 置 都 会 随 着 城市 的 发 展 而 变化 。 


发 掘 不 同 区 域 的 功能 有 着 多 方面 的 应 用 前 景 。 举 例 来 说 ， 对 于 游客 ， 轻 松 地 分 辨 城市 中 的 景点 和 商业 区 是 一 件 对 旅途 十 分 有 
利 的 事情 ; 对 于 城市 规划 者 来 说 ， 城 市 在 长 期 的 发 展 中 形成 的 功能 区 域 与 最 初 规 划 的 很 可 能 已 经 不 一 致 了 ， 了 解 当下 真实 的 城市 
功能 区 域 能 够 帮助 他 们 更 好 地 规划 城市 建设 ; 对 于 从 商人 员 或 广告 投放 者 来 说 ， 了 解 城市 的 构造 能 够 大 大 增加 他 们 的 收益 ， 比 如 
在 投 建 一 个 新 超市 的 时 候 ， 只 有 了 解 了 居民 的 生活 区 范围 才能 够 最 优化 超市 的 未 来 僵 利 。 


要 发 掘 城市 的 不 同 功能 区 域 ， 需 要 知道 城市 的 兴趣 点 和 城市 内 居民 在 不 同 区 域 间 的 移动 轨迹 。 兴 趣 点 包括 了 地 点 的 地 理 坐 标 
和 种 类 ， 比 如 餐馆 或 商场 。 一 方面 ， 从 大 量 的 兴趣 点 数据 中 我 们 可 以 看 出 一 个 区 域 的 功能 ， 比 如 有 许多 大 学 和 中 学 聚集 的 地 方 有 
很 大 概率 是 一 个 教育 区 域 。 但 是 另 一 方面 ， 即 使 某 一 类 型 的 兴趣 点 在 两 个 区 域 都 有 着 类 似 的 分 布 ， 也 不 能 说 明 这 两 个 区 域 的 功能 
一 样 ， 比 如 城市 的 不 同 区域 都 会 有 餐馆 的 分 布 ， 但 是 这 些 区 域 的 功能 不 一 定 都 是 一 致 的 。 居 民 的 移动 轨迹 可 以 从 多 种 数据 集中 采 
集 ， 比 如 手机 的 基站 数据 、 开 车 过 程 中 的 行程 记录 、 社 交 网 络 中 的 地 理 签到 等 。 人 们 在 不 同 区 域 之 间 的 移动 轨迹 与 各 个 区 域 的 功 
能 有 着 紧密 的 联系 ， 联 系 主要 可 以 分 为 两 个 方面 : 第 一 个 是 人 们 什么 时 候 进入 这 个 区 域 ， 什 么 时 候 离 开 ; 第 二 个 是 人 们 从 哪个 区 
域 出 友 进 入 这 个 区 域 的 ， 以 及 从 这 个 区 域 出 发 会 进入 哪个 区 域 。 比 如 人 们 通常 会 在 工作 日 的 早晨 离开 居住 区 ， 晚 上 回 到 居住 区 ， 
并 且 通 常 在 工作 日 从 工作 的 地 方 直接 去 娱乐 场所 ， 在 周末 则 是 从 家 里 出 发 去 娱乐 场所 。 


挖掘 不 同 区 块 的 功能 


要 发 掘 不 同 区 域 的 功能 ， 首 先 需 要 对 城市 进行 地 理 分 割 。 城 市 中 通常 有 饥 布 整个 市 区 不 同 级 别 的 路 网 ， 包 括 铁路 和 公路 ， 这 
些 路 网 将 城市 分 成 各 个 “单元 区 块 ”。 每 一 个 单元 区 块 都 是 城市 中 的 一 个 社交 经 济 的 基本 单元 ， 首 先 ， 人 们 的 居住 地 和 城市 的 
趣 点 都 是 在 这 些 单元 区 块 中 ; 其次， 单元 区 块 也 是 人 们 日 常 行程 中 的 起 始点 和 目的 地 。 


M 


M 
N 


NI 


划分 好 区 块 后 ， 就 可 以 开始 挖掘 不 同 区 块 的 功能 了 。 


定义 3 (BARA) ”一 个 移动 模式 M 是 一 次 移动 行为 中 抽取 的 一 个 三 元 组 。 给 定 一 次 移动 行为 
Tr= (Tr.to, Trrp, Trt, Trta) (其 中 Tr.ro 是 起 点 、Tr.tp 是 终点 、Tr.ti 是 出 发 时 间 、Tr.t 是 到 达 时 间 ) ， 可 以 得 到 两 个 移动 


RA: 离开 移动 模式 MI= (Trro, Trrp, Tet) 和 到 达 移 动 模式 MA= (Trto, Trtp, Trta) o 


定义 4 (转移 立方 ) ”一 个 转移 立方 C 是 一 个 RXRXT 的 立方 体 ， 其 中 R 是 区 块 的 数目 ， 工 是 时 间 区 间 的 数目 。 因 为 定义 了 两 
种 不 同 的 移动 模式 ， 因 此 这 里 要 定义 两 种 不 同 的 转移 立方 ; 离开 立方 CI 和 到 达 立 方 C\。 离 开 立 方 中 索 引 为 G, j, k) 的 数据 块 
表示 在 tk 时 间 从 i 离开 去 往 t 的 记录 的 数目 ， 记 录 为 

CL (i, j, k) =|KML= (x, y, z) lx=r, yer, z-tgll 

相似 地 ， 


Ca (i, j, k) =|KMA= Gc y, z) =r, yerj z-tgll 


将 居民 的 移动 行为 轨迹 映射 到 移动 模式 中 ， 并 且 将 每 天 分 割 成 不 同 的 时 间 区 间 ， 可 以 得 到 上 面 所 定义 的 两 种 不 同 的 转移 立 


概率 主题 模型 在 近 些 年 得 到 了 广泛 的 应 用 。 假 设 语料库 中 的 每 篇 文章 样本 都 有 多 个 主题 ， 文 章 中 的 每 个 单词 都 支持 着 一 个 主 
题 ， 那 么 给 定 每 篇 文章 中 的 所 有 单词 作为 观测 值 时 ， 该 模型 要 做 的 就 是 发 掘 观测 值 背 后 隐藏 着 的 主题 。 


如 表 2.2 中 所 示 ， 可 以 将 发 掘 一 个 区 块 的 功能 和 发 掘 一 篇 文章 的 主题 这 两 项 工作 很 好 地 对 应 起 来 ， 一 个 包含 多 种 功能 的 单元 


区 块 和 一 篇 含有 多 个 主题 的 文章 具有 很 高 的 相似 性 。 图 2.11 用 了 一 个 例子 进一步 展示 了 它们 之 间 的 类 比 。 对 于 一 个 特定 的 区 块 
ri, 由 CA (1: R, i, 1: T) 和 CL (i, 1: R, 1: T) 可 以 得 到 与 ri 相关 的 移动 模式 。 图 2.11 的 右边 部 分 展示 了 组 成 [的 “ 文 
章 ”， 其 中 一 个 数据 模块 代表 了 一 个 特定 的 移动 模式 ， 模 块 中 的 数字 代表 了 模式 出 现 的 次 数 。 一 个 兴趣 点 由 一 个 三 元 组 来 表示 ， 
包括 了 兴趣 点 的 类 型 、 名 字 和 地 理 位 置 (经 度 和 纬度 ) 。 形 式 区 块 (的 第 种 兴趣 点 频率 密度 vi 可 以 通过 以 下 公式 来 计算 


单元 区 块 7 中 第 i 种 兴趣 点 总 的 数目 
单元 X Hr 的 总 面积 


r 区 块 兴趣 点 的 特征 向 量 定义 为 xr= (v1，v2，.…，VF，1) ， 其 中 F 是 兴趣 点 的 种 类 数目 ， 最 后 添加 的 “1” 是 一 个 默认 特征 


(在 参考 文献 [84] 中 有 具体 说 明 ) 。 兴 趣 点 的 特征 向 量 被 视 为 每 个 区 块 的 元 数据 ， 与 一 篇 文章 中 可 以 观察 到 的 作者 /邮箱 /机 构 
等 特征 类 似 。 


pe = 


R22 与 主题 模型 之 间 的 类 比 


转移 立方 词汇 
单元 区 块 文章 
区 块 功能 一 篇 文章 的 主题 
移动 模式 单词 


兴趣 点 特征 向 量 一 篇 文章 的 元 数据 


到 达 立 方 体 mies 


ELIT LED 
0708 | | os | bAT 


A211 移动 模型 和 单词 的 类 比 


基于 狄 利克 雷 多 项 式 回归 (DMR) [的 主题 模型 ， 通 过 使 用 一 个 能 支持 自 定义 特征 的 灵活 的 架构 ， 将 可 以 观测 到 的 一 篇 广 
章 中 的 元 数据 都 考虑 在 模型 中 ， 相 比较 其 他 只 对 特定 数据 友好 的 模型 (比如 作者 主题 模型 等 ) ， 基 于 DMR 的 主题 模型 拥有 更 广 
泛 的 使 用 空间 。 如 图 2.12 所 示 ，DMR 模 型 的 生成 过 程 是 : 


A212 ”基于 DMR 的 主题 模型 


1) 对 于 每 个 区 块 的 主题 k， 

a) 令 Xk~N (0, c?) ; 

b) 令 Bk~Dir (n) 。 

2) 给 定 第 r 个 区 块 ， 

a) 对 于 区 块 的 每 个 主题 k， 念 必 explrh); 

b) $0,-~Dir (aj) ; 

c) 对 于 第 r 个 区 块 mr，n 的 第 n 个 移动 模式 ， 

i) $z;, n~ Mult (Op) ; 

ii) &mr, n~ Mult (Bzr, n) . 

这 里 N 是 一 个 高 斯 分 布 ，o 是 其 中 的 超 参数 ， 入 是 与 兴趣 点 特征 向 量 长 度 一 致 的 一 个 向 量 。 单 元 区 块 r 内 第 n 个 观察 到 的 移动 
模式 表示 为 mr，n。 模 型 可 以 用 EM 算法 或 吉 布 斯 采样 算法 来 进行 参数 估计 。 
区 域 功能 识别 


得 到 了 每 个 单元 区 块 的 主题 之 后 ， 需 要 使 用 一 个 聚 类 算法 将 主题 相似 的 区 块 聚合 起 来 ， 使 得 同 个 聚 类 内 的 区 块 拥有 相似 的 功 
能 。 对 于 区 块 r， 假 设 用 DMR 模 型 计算 得 到 的 主题 分 布 向 量 为 6j= (Or, 1, Or, 2，.….，6r O ， 其 中 6 | 是 第 k 个 主题 在 区 块 " 
中 的 分 布 。 使 用 K 均 值 算法 对 R 个 区 块 的 主题 分 布 向 量 进行 聚 类 ， 最 终 可 以 得 到 k 个 聚 类 ， 每 个 聚 类 表示 一 个 功能 区 域 。 


得 到 不 同 的 功能 区 域 后 ， 还 需要 探讨 一 下 区 域 真正 的 “语义 ”， 也 就 是 真正 的 “功能 ”， 这 与 主题 模型 的 可 视 化 问题 类 似 。 


值 ， 再 对 区 域内 的 不 同 种 类 的 兴趣 点 进行 排序 。@ 每 个 功能 区 域 最 高 频 的 移动 模式 。@ 功 能 密度 。 将 一 个 移动 模式 内 的 起 始 地 和 
目的 地 输入 到 一 个 核 密度 估计 (KDE) 模型 中 来 获得 功能 区 域 的 功能 密度 ， 具 体 来 说 ， 给 定 一 个 2D 空 间 里 面 的 n 个 点 X1，x2， 
.，Xn，KDE 对 一 个 地 点 s 的 密度 估算 定义 为 


n 


as) = 31 GK (Ei) (2.9) 


| Ur 


其 中 di，s 是 xi 到 s 的 距离 ，" 是 频 宽 ，K (-) SHAG, KERR BAPAKDEAT AAR. AMALIE 
功能 核 中 具有 代表 性 的 兴趣 点 ， 从 而 可 以 估计 区 域 的 功能 ， 比 如 如 果 某 个 功能 区 域 的 核 中 有 很 多 大 学 和 中 学 ， 那 么 这 个 功能 区 很 
可 能 就 是 一 个 教育 区 域 。@ 人 工 标 注 的 区 域 。 有 一 些 非 常 有 名 的 区 域 的 功能 是 显而易见 的 ， 比 如 包含 紫禁城 的 旅游 区 域 ， 通 过 聚 
类 算法 ， 一 个 聚 类 内 的 若干 个 人 工 标注 的 区 域 可 以 帮助 我 们 理解 聚 类 内 其 他 区 域 的 功能 。 图 2.13 展 示 了 三 种 不 同 的 方法 挖掘 出 的 
不 同城 市 功能 区 分 割 ， 其 中 每 个 区 域 的 兴趣 点 特征 向 量 排序 可 参考 表 2.3。 
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图 2.13 不 同方 法 找到 的 功能 区 域 
表 2.3 ”每 个 功能 区 域 的 兴趣 点 特征 向 量 排序 


cO cl c2 c3 c4 c5 c6 c7 c8 

POI FD IR FD IR FD IR FD IR FD IR FD IR FD IR FD IR FD IR 
CarServ 0.046 25 0. 016 23 0. 052 26 0. 044 18 0. 060 17 0. 028 25 0. 056 24 0. 091 13 0. 053 21 
CarSele 0.009 28 0. 005 27 0. 061 24 0. 006 27 0. 009 27 0. 005 28 0. 021 27 0. 015 26 0. 006 27 
CarRepa 0.021 26 0. 011 24 0. 062 23 0. 042 19 0. 051 20 0. 023 27 0. 062 23 0. 057 18 0. 039 25 
MotServ 0.002 30 0. 003 28 0. 004 28 0. 001 28 0. 002 29 0. 004 29 0. 001 29 0. 001 29 0. 003 28 
Caf/Tea 0.226 140.121 90.226 12 0. 066 15 0. 113 130.252 60.237 13 0. 052 19 0. 153 10 
StaStor 0.135 17 0. 037 20 0. 127 17 0. 037 20 0. 058 18 0. 080 19 0. 100 19 0. 073 15 0. 072 17 
LivSery 1.289 10.581 21.322 20.399 10.698 10.780 21.345 20.430 20.886 2 
Sports 0.054 23 0. 035 21 0. 092 21 0. 030 22 0. 041 22 0. 033 23 0. 080 20 0. 035 20 0. 093 16 
Hospital 0.244 13 0. 088 13 0. 222 13 0. 069 14 0. 137 12 0.144 15 0. 246 120.070 160.194 8 
Hotel 0. 202 15 0. 063 16 0. 115 18 0. 058 16 0. 071 16 0. 086 18 0. 211 15 0. 059 17 0. 049 22 
SceSpo 0. 048 24 0. 007 26 0. 032 27 0. 012 25 0. 016 25 0.029 24 0. 044 25 0. 012 27 0. 031 26 
Residen 0.795 30.230 50.638 60.203 50.323 50.398 50.797 40.221 40.440 3 
Gov/Pub 0.442 7 0.103 110.276 110.094 100.188 90.169 120.375 70.177 60.150 11 
Sci/Edu 0.315 110.139 71.084 30.109 90.323 60.251 80.530 60.124 90.266 6 
TrasFac 0.459 60.115 100.397 70.091110.150 110.191 110.364 80.113 10 0.257 7 
Bank/Fina0. 376 90.128 80.383 80.078 13 0. 107 14 0. 197 10 0. 320 10 0. 083 14 0. 135 12 
CopBusi 1.128 20.593 11.947 10.334 20.348 40.548 41.738 10.475 10.977 1 
StrFur — 0. 002 29 0. 000 30 0. 001 30 0. 001 30 0. 000 30 0. 001 30 0. 000 30 0. 001 30 0. 000 30 
Entr/Bri 0.296 12 0. 065 14 0. 210 14 0. 081 12 0. 160 10 0. 160 14 0. 228 14 0. 133 17 0. 097 15 
PubUti 0.405 80.101120.285 90.112 80.238 70.209 90.314 110.132 80.132 13 
ChiRes 0.692 50.252 40.926 50.294 30.399 30.813 10.829 30.235 30.370 4 
ForRes 0.098 18 0. 050 17 0. 054 25 0. 010 26 0. 009 26 0. 163 13 0. 063 210. 018 25 0. 101 14 
FasRes 0.095 19 0. 046 18 0. 141 16 0. 034 21 0. 050 21 0.126 16 0. 132 17 0. 026 22 0. 057 20 
ShopMal 0.724 40.268 30.929 40.242 40.476 20.559 30.734 50.203 50.306 5 
ConvStor 0. 370 100.157 60.281 100.128 70.234 80.251 70.362 90.108 110.160 9 
E-Stor 0.056 21 0. 017 22 0. 107 20 0. 029 23 0. 037 23 0. 037 22 0. 063 22 0. 018 24 0. 040 23 
SupMar 0.055 22 0. 008 25 0. 065 22 0. 020 24 0. 025 24 0. 042 21 0. 040 26 0. 021 23 0. 040 24 
FurBuil 0.086 20 0. 065 15 0. 151 15 0. 192 6 0. 093 15 0. 088 17 0. 142 16 0. 099 12 0. 064 19 
Pub/Bar 0.179 16 0. 043 19 0. 114 19 0. 044 17 0. 053 19 0. 060 20 0. 120 18 0. 031 21 0. 071 18 
Theater 0.011 27 0. 001 29 0. 002 29 0. 001 29 0. 006 28 0. 025 26 0. 007 28 0. 002 28 0. 002 29 


[1] D Mimno, A McCallum.Topic models conditioned on arbitrary features with dirichlet-multinomial regression [C] .In Uncertainty in 


Artificial Intelligence, 2008. 


Bie ”用 尸 移动 建 模 


用 户 移动 规律 的 刻画 在 包括 人 类 动力 学 、 时 空 数据 挖掘 等 不 同 的 领域 均 得 到 了 广泛 的 研究 ， 这 不 仅 得 益 于 移动 数据 的 累积 ， 
更 重要 的 在 于 它 对 于 研究 疾病 传播 、 城 市 规划 、 交 通 流 预测 等 的 重要 价值 。 具 体 而 言 ， 对 人 出 行 ， 特 别 是 长 途 旅 行规 律 的 理解 ， 
有 助 于 理解 、 预 测 和 控制 全 球 性 传染 病 的 流行 趋势 [1 加 ;对 于 人 类 群体 出 行 行为 时 空 图 的 分 析 可 以 为 交通 路 网 设计 、 道 路 流量 规 
划 ， 包 括 公共 服务 设施 和 商业 设施 的 选 点 等 提供 借鉴 Bl]。 人 类 动力 学 是 由 统计 物理 学 家 发 起 并 推动 的 ， 旨 在 发 现 移动 模式 新 的 统 
计 规 律 并 建立 相应 的 动力 学 模型 。 这 些 研究 一 般 以 诸如 布朗 运动 等 的 粒子 移动 模型 为 基础 ， 研 究 两 次 移动 之 间 的 时 间 间隔 分 布 、 
步 长 分 布 等 的 统计 规律 ， 然 后 以 此 为 规律 来 建立 诸如 连续 时 间 的 随机 游 走 、 基 于 层次 性 交通 系统 的 人 类 运动 模型 等 的 动力 学 模 
型 。 而 时 空 数据 挖掘 则 从 数据 出 发 ， 研 究 移动 数据 的 时 空 规律 性 ， 并 以 时 空 规律 性 为 基础 设计 诸如 马尔 可 夫 模型 、 高 斯 混合 模 
型 、 和 矩阵 低 秩 近 似 等 移动 预测 模型 。 综 合 来 看 ， 虽 然 它 们 都 会 研究 移动 模式 的 规律 性 ， 但 是 前 者 更 关注 动力 学 模型 的 解释 性 ， 比 
如 能 够 产生 适 配 的 时 间 间 隔 分 布 和 步 长 分 布 ， 而 后 者 更 关注 参数 估计 ， 使 得 能 够 获得 更 高 的 位 置 预测 的 精度 。 这 些 模型 并 不 在 乎 
模型 的 物理 可 解释 性 。 此 外 ， 人 类 动力 学 一 般 是 从 群体 的 统计 规律 出 发 进行 研究 的 ， 得 到 的 规律 性 可 能 很 难 推广 到 个 体 层面 。 而 
对 于 时 空 数 据 挖掘 ， 由 于 人 们 之 间 移 动 模式 的 差异 性 ， 只 有 更 关注 个 人 的 移动 规律 性 才能 使 预测 算法 获得 更 高 的 预测 精度 。 


[1] L Hufnagel, D Brockmann, T Geisel.Forecast and control of epidemics in a globalized world [C] .Proceedings of the National Academy 
of Sciences of the United States of America, 2004. 

[2] S Eubank, H Guclu, et al.Modelling disease outbreaks in realistic urban social networks [J] .Nature, 2004, 429 (6988) : 180-184. 
[3] P L Mokhtatian, I Salomon.In perpetual motion: travel behavior research opportunities and application challenges [M] .Netherlands: 


Elsevier, 2002. 


3.1 基于 人 类 动力 学 的 移动 建 模 研究 


人 类 动力 学 是 统计 物理 学 家 发 起 的 ， 因 而 背后 的 理论 来 自 于 统计 物理 领域 。 其 中 最 著名 的 莫 过 于 连续 时 间 的 随机 游 走 模型 。 
该 模型 是 随机 游 走 模型 的 推广 ， 使 得 移动 对 象 在 两 次 移动 之 间 的 等 待 时 间 是 满足 特定 分 布 的 随机 变量 。 刻 画布 朗 运 动 的 维 纳 过 程 
便 是 标准 的 连续 时 间 随 机 游 走 模 型 ， 其 等 待 时 间 满 足 指 数 分 布 而 步 长 满足 零 均值 的 正 态 分 布 ; 刻画 人 类 移动 的 重要 模型 一 一 
Lévy 飞行 ， 则 是 步 长 满足 窜 律 分 布 而 等 待 时 间 的 期 望 是 有 限 情况 下 的 随机 过 程 。 反 过 来 ， 假 设 已 知 了 等 待 时 间 的 分 布 和 移动 步 
长 的 分 布 ， 我 们 便 可 能 解析 出 相应 的 连续 时 间 随 机 游 走 模型 。 这 也 是 为 什么 目前 大 部 分 关于 人 类 动力 学 的 移动 模型 会 去 研究 步 长 
分 布 和 等 待 时 间 分 布 。 因 此 本 节 中 ， 我们 会 介绍 连续 时 间 的 随机 游 走 模型 ， 之 后 在 多 个 数据 集 上 介绍 获得 的 相关 统计 规律 。 除 此 
以 外 ， 引 力 模型 是 一 个 基于 牛顿 万 有 引力 的 模型 ， 用 于 估计 区 域 间 人 流 移动 的 预测 模型 ， 是 在 不 借助 任何 移动 数据 的 情况 下 ， 只 
依赖 于 区 域 人 口 统 计数 据 实现 的 。 由 于 该 模型 借用 了 牛顿 万 有 引力 模型 的 思想 ， 也 会 在 本 节 中 进行 讲述 。 


3.1.1 连续 时 间 的 随机 游 走 模型 


前 面 提 到 过 ， 连 续 时 间 的 随机 游 走 是 一 个 满足 独立 增 量 和 平稳 增 量 的 随机 过 程 ， 两 次 移动 之 间 的 等 待 时 间 和 移动 步 长 是 满足 
特定 分 布 的 。 假 设 等 待 时 间 和 移动 步 长 分 别 由 随机 变量 At 和 Ax 来 表示 ， 它 们 的 概率 密度 函数 分 别 为 g (At) 和 f (Ax) 。 下 面 考 
虑 如 下 公式 定义 的 随机 过 程 X (t) 


N(t) 


XQ e > AS (3. 1) 


i=1 


其 中 移动 量 Axi 是 满足 f (Ax) 密度 分 布 的 独立 同 分 布 的 随机 变量 ，N (t) 是 在 时 间 区 间 (0, t) 内 的 移动 次 数 。 那 么 ， 随 
机 过 程 在 时 间 t 取 值 为 X 的 概率 为 


P(X,t) = >) Pl(n,t)P,(X) (0.9) 


7 一 0 


这 里 的 Pn (X) 是 随机 过 程 在 移动 n 次 之 后 位 置 为 X 的 概率 ， 而 P (n, t) 表示 在 时 间 t 之 后 移动 n 次 的 概率 。 


在 给 定 移动 步 长 分 布 和 等 待 时 长 分 布 的 情况 下 ， 上 述 概率 的 求解 方法 可 以 通过 Montroll-Weiss 公 式 来 完成 ， 只 是 并 非 任意 
的 分 布 都 能 得 到 解析 解 。 该 公式 实际 上 是 对 概率 P (X, t) 进行 拉 普 拉 斯 傅 里 叶 变换 ， 即 


^ 1— 43) 1 
Bd i (3.3) 
5 ] — g(s) fX) 
Rupe | room (At) 的 拉 普 拉 斯 变换 ， 名 0 是 f (Ax) 的 特征 函数 ， 由 如 下 的 传 里 时 变换 给 出 : Ole, fen 


到 #4,， 9， 通过 拉 普 拉 斯 傅 里 叶 逆 变 换 便 可 以 得 到 P (X, t) 的 表示 形式 。 有 兴趣 的 读者 可 以 进一步 了 解 参 考 文献 [14，83] 中 
的 内 容 。 


下 面 示例 如 何 基于 Montroll-Weiss 公 式 来 求解 维 纳 过 程 的 表示 形式 。 前 面 提 到 过 该 过 程 的 步 长 是 满足 零 均值 正 态 分 布 的 ， 
其 特征 函数 为 “rT! 而 步 长 满足 有 限 均 值 t 的 指数 分 布 ， 其 拉 普 拉 斯 变换 为 ?%-=.， 近 似 于 1-ts。 带 入 公式 (3.3) 之 后 ， 
运用 拉 普 拉 斯 傅 里 叶 逆 变 换 ， 便 可 以 求 得 如 下 的 解 


] Welz 
P(X,t) ~ ce lx (3. 4) 
Jt 


这 个 概率 P (X, t) 对 于 理解 用 户 的 移动 行为 是 具有 巨大 价值 的 ， 因 为 根据 该 概率 ， 我 们 可 以 知道 用 户 在 任意 某 个 时 间 的 位 
置 分 布 ， 同 时 也 刻画 了 移动 的 速率 (对 应 于 物理 中 的 扩散 速率 ) 。 为 了 去 设法 求解 这 个 概率 ， 人 类 动力 学 的 很 多 研究 都 放 到 了 移 
动 步 长 和 等 待 时 间 的 分 布 中 去 。 比 如 ， 在 参考 文献 [14] 中 利用 美元 流通 记录 网 站 www.wheresgeorge.com 的 数据 间接 地 对 人 
类 空间 运动 行为 进行 了 实证 统计 。 该 数据 集 包含 了 美国 境内 100 多 万 条 美元 流通 的 数据 ， 每 条 数据 均 记录 了 钞票 的 编号 、 使 用 地 
点 和 使 用 日 期 ， 可 以 由 此 推算 出 每 张 钞票 的 空间 移动 轨迹 。 由 于 钞票 是 被 人 携带 的 ， 因 此 钞票 的 移动 轨迹 可 以 在 一 定 程度 上 反映 
人 的 空间 运动 轨迹 。 对 这 些 数据 的 统计 分 析 结果 显示 ， 钞 票 的 移动 步 长 分 布 曲线 具有 明显 的 宕 律 尾 部 。 在 10 ~ 3500km 的 范围 

内 ， 钞 票 在 距离 为 Ax 的 地 点 间 移 动 的 概率 近似 服从 f (Ax) ~ Ax (+B) ， 其 中 指数 Bx0.59， 如 图 3.1a 所 示 。 这 说 明 钞 票 的 空间 
移动 具有 类 似 Levy 飞 行 的 特征 : 存在 大 量 短途 移动 的 同时 ， 也 能 够 观察 到 远 距 离 的 移动 。 观 察 两 次 移动 间 的 停留 时 间 分 布 ， 可 

以 发 现 它 也 服从 军 律 分 布 ， 军 律 指数 约 为 -1.6， 如 图 3.1b 所 示 。 因 此 ， 具 有 宕 律 的 步 长 分 布 和 埋 律 的 停留 时 间 分 布 的 连续 时 间 随 
机 游 走 模型 便 可 以 用 来 模拟 钞票 的 空间 移动 。 需 要 指出 的 是 ， 钞 票 位 置 的 变化 不 能 反映 个 体 进行 空间 移动 的 统计 规律 ， 因 为 一 张 
钞票 在 登记 过 程 中 会 多 次 经 手 不 同 的 人 。 即 便 一 张 钞票 两 次 登记 中 是 同一 个 人 ， 也 可 能 缺失 了 很 多 他 自己 认为 不 重要 的 旅程 ， 从 
而 使 得 每 次 移动 有 可 能 是 多 个 旅程 的 加 和 。 对 更 能 反映 人 们 移动 特性 的 手机 基站 数据 的 研究 ， 分 析 10 万 名 匿名 手机 用 户 在 6 个 月 


内 的 通信 记录 [01， 可 以 发 现 手机 用 户 的 移动 步 长 近似 服从 带 有 指数 尾 的 宕 律 分 布 : f (Ax) = (Ax+1.5) "Pec, Etch 
B=1.75+0.15; k=400km， 如 图 3.1c 所 示 。 从 窜 指 数 来 看 ， 这 个 分 布 和 钞票 流通 数据 的 步 长 统计 结果 并 无 太 大 差异 ， 反 映 了 人 
类 空间 移动 模型 的 某 种 共同 特性 。 同 样 ， 在 对 校园 、 公 园 、 城 区 和 展览 馆 等 小 范围 场景 中 携带 GPS 终 端的 志愿 者 的 空间 运动 行为 
的 研究 中， 可 以 发 现 各 个 场景 下 群体 的 移动 步 长 都 近似 服从 罕 律 分 布 。 


l 0° 


Po 


Io" 


K 
3 * 


3r/km SP 
10° 10! 102 Ay 10° 10! 10? 


t/day 
a) 钞票 移动 步 长 的 概率 密度 bo 钞票 停留 时 间 的 概率 密度 
10° 


E TT TTT "mm T Tr imi TIT T T TTTTEH 
1 
D D, 


[7 (Ar Arg) Bea 


107 
107 


^ tms 


3 10° 


SS 


^4 107 

105 

10- 

Ii 10 10 — 10 10 
Ar/km 

co 手机 移动 步 长 的 概率 密度 


图 3.1 美元 流通 数据 和 手机 数据 中 的 概率 分 布 


不 过 在 对 度量 个 体 移动 范围 的 回转 半径 的 研究 中 可 以 发 现 ， 人 类 的 空间 运动 具有 高 度 的 有 界 性 ， 这 个 和 Lévy 飞行 中 回转 
半径 会 随时 间 窜 律 增长 的 特性 有 本 质 的 区 别 。 参 考 文献 [35] 针对 用 户 在 t 时 刻 返回 之 前 访问 地 点 的 概率 的 分 析 ， 发 现 了 人 类 空 
间 运 动 具有 很 强 的 周期 性 特性 。 这 一 方面 反映 了 Lévy 飞行 刻画 人 类 空间 运动 还 存在 一 些 不 足 ， 同 时 也 反映 了 人 类 运动 和 粒子 运 
动 之 间 存 在 本 质 区 别 。 针 对 已 发 现 的 人 类 移动 所 具有 的 独特 的 移动 特性 ， 多 种 高 级 的 移动 模型 纷纷 被 提出 ， 这 些 模 型 包括 偏好 返 
回 模型 内 、 信 息 精 优化 模型 5 和 周期 性 随机 游 走 模型 [oj。 不 过 ， 这 些 已 有 的 关于 步 长 和 停留 时 间 的 统计 分 析 都 是 在 群体 水 平 的 ， 
并 不 能 据 此 就 推断 出 其 中 的 每 个 个 体 步 长 都 服从 同样 的 分 布 。 根 据 个 体 层面 的 实证 研究 ， 发 现 绝 大 多 数 个 体 的 出 行距 离 分 布 并 不 


符合 寡 律 分 布 ]， 不 同 职业 类 型 的 个 体 呈 现 出 完全 不 同 的 日 常 出 行 模式 ， 这 再 次 说 明了 人 类 运动 和 粒子 运动 的 本 质 差 异性 。 
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3.1.2 引力 模型 


在 随机 游 走 模型 中 ， 粒 子 的 移动 只 与 距离 相关 ， 那 么 移动 的 方向 就 是 随机 的 ， 具 有 各 向 同 质 性 。 这 在 刻画 移动 行为 时 存在 重 
要 的 缺陷 。 克 服 这 些 缺 陷 的 一 个 重要 方法 就 是 基于 马尔 可 夫 链 的 方法 ， 来 估计 地 点 /区 域 之 间 的 转移 概率 。 由 于 转移 概率 的 估计 
需要 很 多 的 移动 数据 ， 这 点 将 在 基于 时 空 数据 挖掘 的 移动 模型 研究 中 介绍 。 人 类 动力 学 中 也 有 相应 的 研究 ， 不 过 关注 点 在 于 提出 
参数 尽量 少 的 模型 ， 甚 至 是 无 参数 模型 (parameter free) ， 或 者 说 尽量 少 地 使 用 移动 数据 。 比 如 说 引力 模型 [1] 便 是 其 中 一 个 
重要 的 方法 ， 该 方法 与 牛顿 的 引力 模型 思想 类 似 ， 假 设 从 位 置 i 到 位 置 j 单 位 时 间 内 的 迁移 人 数 Ti，j， 与 源 地 点 的 人 数 与 目标 地 点 
的 人 口 数 的 朝 数 成 正比 ， 但 随 着 距离 的 增加 而 衰减 ， 定 义 如 下 


a B 
T; iam EUN M: 
?了 f 2) (3 5) 


其 中 a 和 B 是 可 调整 的 参数 ， 而 fri, j) 则 可 以 通过 参数 拟 合 的 方法 来 近似 。 这 个 量 Ti，j 有 时 候 也 会 被 解释 为 从 地 点 i 到 地 局 j 
之 间 的 人 口 迁移 率 ， 对 于 解释 人 口 流动 等 现象 具有 重要 的 价值 。 也 可 以 用 来 估计 地 点 之 间 的 相互 影响 所。 通过 该 模型 可 以 看 到 ， 
只 要 有 地 区 的 人 口 数据 ， 便 可 能 估计 每 个 地 区 之 间 的 人 流 迁 移 ， 完 全 摆脱 了 对 移动 数据 的 依赖 。 不 过 通过 对 这 类 算法 的 评价 可 以 
发 现 ， 准 确 度 普遍 较 低 。 后 续 也 有 很 多 的 研究 来 进一步 地 改进 这 个 方法 或 减少 需要 调整 或 学 习 的 参数 ， 比 如 说 源 地 点 约束 的 引力 


模型 B]、 热 辐射 模型 内 ， 等 等 。 
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32 ”基于 时 空 数据 挖掘 的 移动 建 模 研究 


与 人 类 动力 学 的 移动 模型 研究 不 同 ， 基 于 时 空 数据 挖掘 的 移动 模型 更 侧重 于 个 体 移动 规律 和 基于 移动 数据 的 参数 估计 ， 以 获 
得 更 高 的 移动 预测 准确 度 。 所 采用 的 刻画 移动 规律 的 模型 可 能 是 包含 假设 最 少 的 诸如 马尔 可 夫 链 之 类 的 模型 ， 使 得 它们 不 再 受 限 
于 各 向 同性 等 相关 的 约束 。 此 外 ， 在 3.1.1 节 关于 回转 半径 的 分 析 中 可 以 看 到 ， 人 们 的 活动 范围 是 会 随 着 时 间 的 增长 慢 慢 增 大 
的 ， 尽 管 增长 的 速率 很 慢 。 换 句 话说 ， 用 户 的 移动 模式 中 会 存在 探索 性 行为 ， 也 就 是 人 们 会 去 访问 一 些 他 们 从 未 访问 过 的 地 方 。 
这 可 能 源 自 于 人 们 与 多 巴 胺 系统 (dopamine system) 密切 相关 的 心理 特质 一 一 新 颖 性 探索 (neophilia) 。 而 现 有 的 移动 模型 
主要 研究 的 是 规律 性 行为 ， 这 些 行为 的 预测 性 会 较 高 ， 但 对 于 新 颖 性 探索 的 移动 行为 的 预测 将 变 得 异常 困难 。 为 此 ， 我 们 将 介绍 
对 于 新 颖 性 移动 行为 的 建 模 方法 。 然 而 ， 人 们 是 如 何在 规律 性 行为 和 探索 性 行为 中 作出 决策 的 呢 ” 我 们 会 在 本 节 的 最 后 介绍 两 类 
重要 方法 ， 来 说 明 人 们 如 何在 规律 性 行为 和 探索 性 行为 中 作出 选择 的 。 


3.2.1 马尔 可 夫 链 模型 


马尔 可 夫 链 因 安 德 烈 -马尔 可 夫 而 得 名 ， 是 指数 学 中 具有 马尔 可 夫 性 质 的 离散 时 间 随机 过 程 。 马 尔 可 夫 性 即 为 无 记忆 性 ， 是 
指 下 一 个 状态 的 概率 分 布 只 取决 于 当前 的 状态 ， 而 不 依赖 于 任何 历史 状态 。 


定义 1 (马尔 可 夫 链 ) ”马尔 可 夫 链 是 具有 马尔 可 夫 性 的 随机 变量 序列 XI ，X2，X3，…，X，…， 如 果 它 的 阶 数 为 mn， 那么 
PRX, DEDE LX Lu Er) = 
Dr X. = alaaa — Lr °?’ D O — dcn 63. 6) 


注意 : 由 于 任意 阶 的 马尔 可 夫 模型 都 可 以 转化 为 一 阶 马 尔 可 夫 模型 由 ， 因 此 在 本 章 中 ， 我 们 只 讨论 一 阶 齐 次 马尔 可 夫 链 。 那 
么 ， 马 尔 可 夫 链 就 由 状态 之 间 的 转移 概率 来 确定 。 特 别 地 ， 假 设 状 态 空间 的 集合 为 S， 那 么 从 状态 iE Ss 到 状态 je 5 的 转移 概率 就 
是 pi， 


c. 
o 


对 于 移动 数据 ， 利 用 马尔 可 夫 链 模型 进行 建 模 ， 首 先 需要 定义 马尔 可 夫 的 状态 。 其 状态 可 以 是 在 预 处 理 中 介绍 的 针对 GPs 轨 
迹 数 据 等 的 进行 重要 地 点 检测 而 得 到 的 重要 地 点 ， 也 称 为 停留 地 点 、 兴 趣 区 域 等 ， 它 也 可 以 是 具体 的 某 个 兴趣 地 点 或 是 诸如 基 
站 、 地 表 等 的 参考 地 点 。 将 每 个 人 每 次 出 行 的 轨迹 中 的 这 些 “ 状 态 ” 连 接 在 一 起 ， 便 可 形成 一 条 状态 链 。 我 们 将 介绍 如 何 基于 这 
些 状态 链 进行 马尔 可 夫 链 中 状态 之 间 的 转移 概率 。 不 过 在 用 马尔 可 夫 链 模型 进行 预测 之 前 ， 需 要 先 回答 一 个 问题 : 数据 集 是 否 存 
在 马尔 可 夫 性 ? 因此 ， 在 介绍 估计 算法 之 前 ， 先 介绍 如 何 进行 统计 性 地 估计 数据 集中 马尔 可 夫 性 的 存在 性 。 换 句 话说 ， 就 是 估计 
数据 集中 的 随机 性 。 


随机 性 估计 


随机 性 估计 的 基本 思路 是 利用 信息 论 中 的 互信 息 来 计算 当前 状态 的 对 于 估计 下 一 个 状态 的 信息 量 。 假 设 当前 状态 的 随机 变量 
为 Xt-1， 而 下 一 状态 的 随机 变量 为 Xt， 那 么 互信 息 为 


KXaX a = HALHA [X (aD 


在 时 间 齐 次 的 情况 下 ， 给 定 某 个 状态 | 的 概率 为 p|， 那 么 


H(X,) 一 一 》 plogp, (3. 8) 


同时 给 定 从 任意 状态 k 转 移 到 任意 状态 的 概率 pk, |, BBA 


s| [| 


H(X, |X) =— >) be 2, pulogbi (3. 9) 


k=1 i—1 


只 要 能 够 验证 | (Xt; Xt-1) 是 显著 大 于 0 的 ， 就 可 以 证 明 马 尔 可 夫 性 的 存在 性 。 根 据 互信 息 的 性 质 ，| (Xt; Xt-1) 20, AA 
H (Xt|Xt-1) ZH (Xt) 。 在 Xt 与 Xt-1 相 互 独 立 的 情况 下 ， 即 不 存在 马尔 可 夫 性 的 情况 下 ， 满 足 | (Xt; Xt-1) =0。 不 过 可 以 看 
到 ， 在 准确 地 估计 出 这 个 互信 息 之 前 ， 必 须要 准确 地 估计 出 状态 概率 分 布 pl 和 状态 转移 概率 pk |。 在 有 限 数据 的 情况 下 ， 对 参数 
的 估计 会 过 拟 合 ， 那 么 对 于 粒 的 估计 会 比 真 实 的 要 小 ， 即 为 往 下 偏 的 。 要 解决 这 个 问题 ， 一 方面 可 以 通过 下 面 介绍 的 贝 叶 斯 等 估 
计 方 法 来 缓解 这 种 过 拟 合 ;另外 一 方面 ， 可 以 通过 计算 由 于 有 限 样本 导致 的 系统 偏差 来 进行 纠偏 。 常 用 的 纠偏 方法 是 基于 
Panzeri-Treves 的 纠偏 方法 ， 对 于 上 述 的 两 个 灼 偏差 如 下 


an ] A 
BIASLH(X,)] =— = M- 1] (3. 10) 
BASH On| o = S CEST] (3.11) 
EE oN = l 


RAM SACRE, MMAR EMASKRER ERIKS, NRTA, BOURKE. FS 
估计 都 是 往 下 偏 的 ， 那 么 对 于 互信 息 的 估计 偏差 应 该 为 


BIAS| I(X,; X, 4) |2 BIASLH(X,) | - BIASLH(X, |X.) ] 


1 —— — 
= ON h | > M: - 11 - LM - 1]] 


(3: 12) 


基于 这 个 纠偏 误差 ， 在 移动 社交 网 络 Whrrl 中 的 签到 序列 上 分 别 计算 了 每 个 人 的 签到 序列 的 互信 息 ， 并 画 出 了 它们 的 分 布 
图 ， 如 图 3.2 的 左 图 所 示 。 可 以 看 到 H (Xt) 和 H (Xt|Xt-1) 之 间 的 间隔 表明 了 马尔 可 夫 性 的 存在 性 。 为 了 进一步 验证 这 种 互信 息 
大 于 零 的 显著 性 ， 还 需要 进行 下 一 步 的 统计 分 析 ， 来 检查 互信 息 大 于 零 的 结论 是 否 会 因为 序列 长 度 的 有 限 性 而 被 推翻 。 特 别 地 ， 
把 这 种 位 置 序列 通过 无 放 回 抽样 的 方法 进行 重 采 样 ， 使 得 H (Xt) 的 值 保持 不 变 ， 来 比较 位 置 序列 打 乱 前 后 H (Xt|Xt-1) 的 变 
化 。 如 果 存 在 显著 变化 ， 那 么 便 能 证 明 互 信息 大 于 零 的 结论 确实 是 由 于 马尔 可 夫 性 所 产生 的 。 在 该 签到 序列 上 的 计算 结果 如 图 
3.2 的 右 图 所 示 ， 通 过 该 图 ， 便 可 以 得 出 在 5% 的 置信 和 度 上 互信 息 大 于 零 的 结论 了 。 


图 3.2 互信 息 分 布 图 及 重 采 样 的 统计 值 


左 图 为 移动 社交 网 络 中 的 序列 焙 和 香农 粹 。H!=HH (X) 而 H2=H (XXa) ，HI=log|S|。 右 图 为 估计 互信 息 和 重 采样 
的 统计 值 ， 其 中 线段 表示 真实 的 互信 息 估 计 值 ， 而 柱状 图 的 上 下 两 端 分 别 代 表 了 1000 次 重 采样 的 2.5% 和 97.5% 的 分 位 点 
参数 估计 


假设 观测 集合 为 N 条 独立 同 分 布 的 状态 链 ?“'“ 每 条 状态 链 中 的 第 i 个 状态 表示 为 Ln,，i。 在 时 间 齐 次 的 马尔 可 夫 假 设 下 ,给 
定 从 任意 状态 k 转 移 到 任意 状态 | 的 概率 pk 1， 这 个 数据 集 的 似 然 为 


N IL, a N IL, ,| 
PCD) == ll [[ Pr. 1 HL... a) = LS ll Ilii || 23 mi 7 DXL,; jv 
n=] i=2 n=l i=2k.1ES 
(3. 13) 
pees yy" È Ya ha 人 那么 数据 集 的 生成 概率 可 简化 为 
PD) = || p (3. 14) 


k,lES 


PRIA, TAKARA Ait (MLE) 的 方法 对 转移 概率 进行 估计 。 特 别 地 ， NS 但 是 这 种 估计 方法 会 为 
未 观测 到 的 任意 一 对 状态 之 间 的 转移 概率 估计 为 0 值 ; 此 外 ， 在 针对 个 人 移动 数据 进行 转移 概率 佑 计时， 由 于 移动 数据 的 有 限 性 
和 巨大 的 移动 状态 空间 ， 该 估计 方法 容易 产生 过 拟 合 。 以 移动 社交 网 络 中 记录 的 数据 为 例 ， 每 个 人 平均 签到 40 个 兴趣 地 点 ， 转 
移 概 率 中 参数 的 个 数 为 40x40， 而 每 个 人 平均 总 共 大 约 只 有 60 次 的 签到 。 因 此 ， 有 很 多 的 研究 介绍 如 何 进行 平滑 估计 。 方 法 主 
要 包括 平滑 类 方法 和 贝 叶 斯 方法 。 这 两 个 方法 存在 密切 的 联系 。 下 面 就 针对 这 两 类 方法 进行 介绍 。 


平滑 类 中 最 为 重要 的 方法 是 语言 模型 中 广泛 使 用 的 Kneser-Ney 平 滑 技 术 [ 思 。 具 体 来 说 ，pk 上 环 示 如 下 
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(3.15) 


其 中 140 是 示 性 函数 (indicator function) ， 并 且 0<8<1 是 一 个 折扣 系数 ， 一 般 利用 基于 交叉 验证 的 方法 计算 可 得 到 这 个 经 
验 公式 “+ 到 来 设置 (n1 和 n2 分 别 是 一 次 转移 的 位 置 对 数目 和 二 次 转移 的 位 置 对 数目 ) 。 这 个 基于 交叉 验证 的 估计 方法 需要 计 
算 leave-one-out 的 似 然 值 。 特 别 地 ， 每 次 在 数据 集中 除去 某 个 移动 数据 实例 ， 利 用 剩余 的 数据 实例 来 估计 参数 ， 再 用 估计 的 参 
数 来 计算 这 个 除去 数据 的 似 然 值 。 对 数据 集中 的 每 个 数据 实例 计算 一 次 ， 然 后 求 和 就 得 到 了 这 个 leave-one-out 的 似 然 值 。 以 这 
个 为 目标 函数 ， 令 其 天 于 5 导数 为 零 ， 便 可 以 得 到 8 佑 计 的 经 验 公式 。 详 细 的 推导 过 程 可 以 参考 文献 [89] 。 这 个 Kneser-Ney 平 
滑 公 式 背 后 的 想法 是 给 定 当前 位 置 k 的 情况 下 ， 需 要 对 观测 到 的 从 位 置 k 转 移 到 其 他 位 置 的 次 数 打 一 个 折扣 ， 并 把 这 些 移交 到 那 
些 没有 被 转移 到 的 目标 位 置 上 。 此 外 ， 这 个 转移 概率 的 估计 可 以 确保 零 阶 的 经 验 位 置 分 布 ( 极 大 似 然 估计 ，#”) 和 一 阶 位 置 对 
的 联合 概率 的 边缘 概率 要 相互 匹配 。 具 体 来 说 ， 就 是 满足 


D pip = pr (3. 16) 
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也 就 是 说 “是 由 概率 转移 矩阵 {pk，1} 决 定 的 一 阶 马尔 可 夫 过 程 的 平稳 分 布 。 关 于 这 个 公式 的 证 明 可 阅读 参考 文 
献 [17，122] 。 


这 样 的 平滑 估计 公式 是 根据 语言 学 家 长 期 的 经 验 积 累 观 测 提出 的 ， 其 背后 却 可 以 和 马尔 可 夫 链 模型 的 贝 叶 斯 估计 理论 密切 相 
关 。 目 前 有 两 种 贝 叶 斯 的 方法 被 证 明了 和 这 个 平滑 估计 存在 密切 联系 。 第 一 种 方法 假设 转移 概率 是 狄 利克 雷 (Dirichlet) Rt 
先 验 分 布 ， 这 个 先 验 信息 在 离散 数据 模型 (如 主题 模型 和 朴素 贝 叶 斯 ) 中 发 挥 了 巨大 的 作用 ， 我 们 将 会 在 本 书 中 详细 介绍 它 的 内 
容 。 第 二 种 方法 主要 是 针对 自然 语言 中 单词 (状态 ) 的 使 用 满足 酝 律 分 布 而 提出 的 。 在 前 面 的 天 于 人 类 动力 的 统计 分 析 中 ， 人 们 
的 大 部 分 时 间 都 聚焦 在 极 少数 的 地 点 上 (家 和 工作 地 点 ) ， 因 而 这 类 方法 也 非常 适合 移动 建 模 。 不 过 这 类 方法 不 会 在 此 详细 介 
绍 ， 只 会 提供 一 些 解释 ， 说 明 它 的 基本 原理 和 过 程 。 

前 面 观测 到 ， 和 转移 概率 估计 相关 的 是 状态 之 间 的 转移 次 数 ， 因 此 我 们 首先 把 独立 同 分 布 的 位 置 序列 的 观测 数据 D 转 换 成 一 
个 位 置 之 间 转 移 次 数 的 和 矩 阵 ， 记 为 O={n 必 ， 其 中 nk 是 长 度 为 状态 数 的 次 数 向 量 ， 每 一 个 元 素 均 对 应 了 从 地 点 Kk 转移 到 相应 地 点 的 
次 数 。 根 据 公式 (3.14) 


P(O|P) = [| PGu |p.) cc || Tp (3. 17) 
k k l 


WTA MUA (OE) ， 可 以 很 容易 地 得 到 极 大 似 然 估 计 。 从 前 面 的 分 析 中 我 们 知道 极 大 似 然 估计 很 容易 
过 拟 合 ， 所 以 ， 给 这 个 转移 概率 分 布 附 加 相同 先 验 信息 ， 也 就 是 说 pk~ Dir (aom) =Dir (a) ，k=1，...，|S|， 其 中 m 是 先 验 
均值 (满足 ~” ”而 co 就 是 先 验 的 强度 。 由 于 狄 利克 雷 分 布 和 多 项 分 布 的 共 物 性 ， 我 们 很 容易 得 到 转移 概率 分 布 的 后 验 分 布 ， 
也 就 是 pk~ Dir (nk+aom) 。 对 于 给 定 这 些 观 测 向 量 ， 要 预测 下 一 个 位 置 ， 可 利用 下 面 的 后 验 预测 分 布 


Nk, -F Qo Mı 


PIRO) = (PO |k, p) PCr: mi)dp = (3.18) 
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可 以 看 到 这 个 预测 概率 可 以 分 解 为 两 项 的 和 ， 与 公式 (3.15) 非常 接近 。 在 做 预测 的 时 候 ， 昌 然 把 转移 概率 边缘 化 了 ， 但 是 
仍然 有 两 个 未 知 参数 xc0 和 m。 佑 计 这 两 个 参数 最 直接 、 最 常用 的 办 法 就 是 利用 经 验 贝 叶 斯 方法 。 具 体 而 言 
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对 这 个 似 然 函数 取 对 数 之 后 再 最 大 化 ， 便 可 以 得 到 a 的 经 验 贝 叶 斯 的 解 。 可 以 采用 的 最 大 化 的 方法 有 很 多 ， 包 括 定 点 迭代 法 
(fixed-point iteration) 、 牛 顿 法 等 。 也 可 以 利用 刚 提 到 的 交叉 验证 ( 留 一 法 ) 的 方法 来 进行 估计 。 详 细 的 内 容 可 以 查看 参考 
文献 [85，78] 。 下 面 给 出 定点 迭代 法 中 对 a 中 每 个 元 素 的 更 新 


NPO Hai) — Wa) 
a” = a, ! ee (3. 20) 


zel 2 sp 2 jai) — v( 2 ja) 


根据 在 参考 文献 [78] 中 提 到 的 利用 对 中 的 近似 得 到 了 先 验 均值 的 近似 ， 即 ms 人 k: nk, 1>0}。 这 个 近似 就 和 前 面 的 
Kneser-Ney 的 平滑 技术 很 接近 。 不 过 ， 虽 然 该 方法 具有 漂亮 的 数学 解释 ， 但 是 预测 效果 却 不 如 那些 经 验 性 的 平滑 类 方法 ， 特 别 
是 Kneser-Ney 平 滑 的 改进 版 本 。 根 据 参考 文献 [123] 的 解释 ， 最 重要 的 一 个 原因 就 是 在 这 个 贝 叶 斯 分 析 中 没 能 对 数据 中 特殊 
的 分 布 进行 建 模 。 因 为 在 很 多 的 实际 情况 中 ， 状 态 的 访问 次 数 分 布 经 常 是 满足 悍 律 分 布 的 ， 包 括 在 文本 中 词 的 频率 分 布 B、 在 位 
置 数据 中 位 置 的 频率 分 布 册 P]， 等 等 。 因 此 可 能 更 合适 的 先 验 信息 是 能 产生 这 种 埋 律 分 布 的 Pitman-Yor 过 程 。 考 虑 一 阶 情况 


pi C?) NOSE PY Gi ssp Ce2) 
b, C) ~ PY (do 10» po C*2) (oe 21) 


而 po 分 布 是 一 个 均匀 分 布 ， 也 就 是 ”0 二:0<d1<1 和 81>-d (以 及 0<do<1 和 60>-do) 分 别 是 Pitman-Yor 过 程 的 折扣 因 
子 和 强度 系数 。 当 do=0 (或 者 d1=0) 的 时 候 ， 这 个 分 布 就 退化 到 参数 为 90p0 C) 的 狄 利 克 雷 分 布 ， 和 基于 狄 利 克 雷 的 贝 叶 斯 
估计 就 是 等 价 的 。 在 参考 文献 [34] 中 ， 作 者 提 到 当 0< do<1 的 时 候 ， 状 态 的 访问 频率 是 满足 窜 律 分 布 的 。 这 个 随机 过 程 很 难 获 


k 


得 解析 解 ， 不 过 ， 却 可 以 通过 中 国 餐 馆 过 程 生成 的 方法 来 实现 [oll/]。 中 国 餐馆 过 程 会 给 来 宾 的 某 个 位 置 安 排 赋值 一 个 概率 分 布 。 
每 一 个 来 宾 便 对 应 了 一 次 状态 的 访问 ， 第 一 个 来 宾 坐 第 一 张 空闲 的 桌子 ， 其 他 的 每 个 人 以 ck-do 的 概率 坐 第 k 张 桌子 (ck 是 桌子 已 
经 坐 了 多 少 个 顾客 ) ， 而 以 90+ dot. 的 概率 坐 一 张 新 的 桌子 (t. 是 当前 已 经 占据 的 桌子 数目 ) 。 每 张 桌子 用 一 个 从 po C) 独立 采 


样 的 样本 来 标记 (对 应 了 状态 ) ， 那 么 在 桌子 上 坐 的 所 有 的 来 宾 和 其 状态 相关 联 ， 也 就 对 应 了 该 状态 的 访问 。pk C) 的 采样 过 

TERI P.C ) 类 似 ， 只 是 每 次 状态 访问 是 在 给 定 状态 k 之 下 的 。 从 这 个 构造 工程 中 ， 我 们 可 以 看 到 它 与 Kneser-Ney 平 滑 技 术 的 相似 
之 处 ， 更 重要 的 是 在 参考 文献 [123] 中 ， 作 者 发 现 了 Kneser-Ney 平 滑 技 术 是 这 个 模型 的 一 个 特例 。 把 这 个 方法 与 前 面 的 贝 叶 

斯 方法 进行 对 比 ， 我 们 发 现 对 观测 到 的 次 数 进行 折扣 是 非常 重要 的 一 个 步骤 ， 这 也 可 能 是 第 二 个 方法 会 比 第 一 个 方法 好 的 另外 一 
个 原因 。 关 于 这 些 参数 的 推断 学 习 (BIT PK C). Po )' 及 另外 的 4 个 参数 ) 都 是 通过 采样 来 完成 的 ， 具 体 可 见 参考 文 

献 [123] 。 

用 地 点 访问 序列 来 举例 进一步 说 明 : 假设 L1，L2，.…，Ln 是 一 个 地 点 访问 序列 ， 对 应 上 述 的 来 宾 序 列 。 来 宾 L1 对 应 的 地 点 是 
Mpo C) 中 采样 得 到 的 ， 并 用 此 地 点 形成 一 个 地 点 的 节点 (对 应 桌子 ) ， 那 么 L1 就 相当 于 该 来 宾 坐 在 该 桌子 上 。 后 续 的 地 点 访 
间 既 可 以 选择 新 的 地 点 ， 也 可 以 选择 已 经 访问 过 的 地 点 。 访 问 新 地 点 的 概率 为 90+dot.， 而 访问 老 地 点 k 的 概率 为 cx-do。 图 3.3 
形象 地 表示 出 了 地 点 访问 序列 的 生成 过 程 。 


MESURER c, 


Ej3.3 ”地 点 访问 序列 的 生成 过 程 国 


可 预测 性 分 析 


前 面 介绍 了 用 统计 的 方法 证 实 马尔 可 夫 性 的 存在 性 ， 但 只 验证 了 一 阶 马 尔 可 夫 性 。 规 律 性 较 弱 的 地 点 序列 ， 基 于 一 阶 马尔 可 
夫 链 模型 进行 移动 建 模 可 能 已 经 足够 ， 但 是 对 于 规律 性 较 强 的 地 点 序列 ， 可 能 需要 利用 更 高 阶 的 模型 ， 比 如 可 以 基于 层次 的 
Pitman-Yor 过 程 来 实现 。 在 此 ， 技 术 问题 不 再 做 进一步 讨论 ， 不 过 很 自然 的 疑问 是 最 多 能 用 几 阶 的 马尔 可 夫 链 模型 。 在 贝 叶 斯 
模型 之 下 ， 因 为 高 阶 模型 会 用 低 价 模型 来 做 平滑 ， 所 以 阶 数 越 高 ， 预 测 的 精度 就 会 越 高 ， 但 是 精度 的 增加 会 越 来 越 小 ， 最 终 应 该 
会 收敛 到 一 个 稳定 值 。 这 个 稳定 值 便 对 应 了 马尔 可 夫 模 型 的 极限 性 能 。 下 面 将 依照 参考 文献 [114] 对 可 预测 性 进行 定义 并 求解 
其 上 界 。 


特别 地 ， 假 设 给 定 用 户 的 前 i-1 的 位 置 访问 信息 ，h;-1={l1，l2，.….，1i-1}， 为 该 用 户 预 测 第 i 个 访问 位 置 L;。 从 概率 意义 上 说 ， 
需要 建 模 给 定 hn_1 下 Ln 的 概率 分 布 ， 即 P (Lnlhn-1) 。 假 设 r_ (hi-1) 是 给 定 历史 hi-1 的 情况 下 出 现在 最 大 概率 位 置 
Î =argmax,P (L; =l |h, ) 的 概率 ， 即 


C hs) = supi PCL, APER (3.22) 


那么 这 个 概率 包含 了 所 有 可 能 阶 的 马尔 可 夫 性 。 而 且 ， 这 个 概率 也 是 所 有 可 能 预测 模型 的 准确 率 的 上 界 ， 具 体 来 说 ， 假 设 某 
个 任意 预测 算法 的 下 一 个 位 置 的 概率 分 布 为 ?1). 那 么 准确 预测 下 一 个 位 置 的 概率 为 ?24.5 满足 
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虽然 根据 参考 文献 [114] 这 个 上 界 是 紧 致 的 ， 但 是 在 地 点 序列 的 生成 时 总 是 需要 保证 序列 中 地 点 被 访问 的 概率 最 大 ， 而 且 
在 预测 算法 的 概率 分 布 中 必须 在 最 大 概率 的 地 点 上 的 概率 为 1， 所 以 ， 这 个 上 界 是 很 难 满足 的 。 不 过 这 对 于 极限 分 析 却 是 很 有 帮 
助 的 。 


针对 所 有 可 能 的 长 度 为 i-1 的 序列 上 的 rm (hn-1) 求 和 ， 便 可 以 得 到 在 第 i 个 位 置 (第 i 个 时 刻 ) 的 可 预测 性 ， 即 


WG) = >) Phe) rhs) (3. 24) 
hi 
其 中 P (hi4). 是 观测 到 这 个 位 置 历史 序列 hn-1 的 概率 。 再 对 所 有 时 刻 上 的 可 预测 性 求 平 均 之 后 再 取 极 限 ， 便 可 以 得 到 该 序 
列 的 可 预测 性 中 


I= lim +D IC) (3. 25) 
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中 存在 一 个 上 界 。 下 面 给 出 上 界 的 推导 过 程 。 特 别 地 ， 在 第 i 个 时 刻 ， 位 置 预测 错误 的 概率 为 1-n (hii) ， 根 据 Fano 不 等 
式 中 1， 我 们 可 以 得 到 SF (m (hn-1) ) >S (Lalhy-1) ， 其 中 SF (p) = (1-p) logo (N-1) +H (p) 是 Fano 函 数 (H (p) =- 


plogp- (1-p) log (1-p) 7th) 。 由 于 Fano 函 数 在 区 间 5TST， P? (|s| 为 状态 空间 的 大 小 ) 是 凹 函数 并 且 是 单调 递减 的 。 根 
据 Jensen 不 等 式 ， 我 们 可 以 得 到 
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= S (3.26) 


STEI, mn — T SEXGEFRAUNSHUREM. IAEA RRESF (N) >S。 此 外 ， 由 于 Fano 函 数 的 单调 递减 性 ， 通 过 


ss )， 每 个 计算 得 到 的 序列 精 后 面 都 隐 含 了 一 个 上 限 值 "ex。 也 就 是 说 ， 不 管 是 什么 样 的 预测 算法 ， 如 果 只 利用 这 个 位 置 
历史 序列 ， 那 么 <mmax 总 是 满足 的 。 最 后 我 们 利用 S=SF (Mmax) 来 计算 nmax。 由 于 ” -总 是 满足 的 ， 这 个 等 式 就 有 了 唯一 
的 根 。 我 们 可 以 利用 任何 的 求 根 算 法 ， 比 如 牛顿 法 ， 来 找到 相应 的 解 。 


[1] J Yuan, Y Zheng, et al.Driving with knowledge from the physical world [C] .In Proceedings of the 17th ACM SIGKDD International 
Conference on Knowledge Discovery and Data Mining, ACM, 2011. 

[2] S F Chen, J Goodman.An empirical study of smoothing techniques for language modeling [C] .In Proceedings of 
ACL’ 96, ACL, 1996. 

B] R E Madsen, D Kauchak, C Elkan.Modeling word burstiness using the dirichlet distribution [C] .In Proceedings of 
ICML' 05, ACM, 2005. 

[4] Z Cheng, J Caverlee, K Lee, et alExploring millions of footprints in location sharing services [C] .In Proceedings of 
ICWSM’ 11, 2011. 

[5] H Gao, J Tang, H Liu.Exploring social-historical ties on location-based social networks [C] .In Proceedings of ICWSM’ 12, 2012. 


[6] Y W Teh.A hierarchical bayesian language model based on pitman-yor pro-cesses [C] .In Proceedings of ACL’ 06, ACL, 2006. 


[7] Y W Teh.A bayesian interpretation of interpolated kneser-ney [C] .2006. 
[8] H Gao, J Tang, H Liu.Exploring social-historical ties on location-based social networks [C] .In Proceedings of ICWSM' 12, 2012. 


[9] R Fano.Transmission of information: a statistical theory of communications [M] .Cambridge: The MIT Press, 1961. 


3.2.2 ”时 间 规 律 性 模型 


时 间 规律 性 模型 ， 是 指 利用 人 们 在 不 同时 间 下 的 位 置 概率 分 布 ， 即 P (Xt=Ilte [to，to+At) ) ， 来 进行 预测 的 。 这 种 规律 
性 模型 在 参考 文献 [114] 中 被 证 明 为 可 预测 性 的 下 界 ， 因 为 只 利用 了 移动 模式 集合 的 一 个 子 集 。 同 样 ， 在 数据 足够 充分 的 时 
候 ， 时 间 规律 性 模型 可 以 基于 极 大 似 然 估计 来 对 该 概率 进行 估计 ;而 在 不 充分 的 时 候 ， 极 大 似 然 估计 容易 陷入 过 拟 合 .为 此 ,可 
ee alt ea ee 
计 来 实现 。 而 P (t€ [to，to+At) | 表示 的 则 是 地 点 的 访问 时 间 分 布 ， 可 以 添加 约束 来 进行 估计 的 平滑 。 另 外 ， 时 间 实际 上 
是 连续 变量 ， 可 以 用 连续 的 概率 分 布 来 估计 概率 密度 分 布 ， 并 进而 在 时 间 区 间 上 以 求 积分 的 方法 来 实现 平滑 。 假 设 每 个 地 点 的 访 
问 时 间 都 是 聚焦 于 某 个 时 间 区 间 的 ， 而 时 间 是 具有 周期 性 的 ， 因 而 可 以 采用 针对 周期 性 从 高 斯 分 布 推广 的 冯 - 米 塞 斯 (von 
Mises) 分 布 (1， 将 时 间 映 射 到 [0, 2m] 的 区 间 上 ， 其 密度 形式 如 下 


t + AD) 


pOll om) = exp{mcos(@— @ ) } (5.2/1) 


LE 
2m, Gn) 


其 中 60 是 分 布 的 均值 ，m 是 聚焦 系数 ， 类 似 于 高 斯 分 布 中 精度 (precision) WB. lg (m) 是 归 一 化 系数 ， 是 一 个 零 阶 
第 一 类 贝 塞 尔 函 数 。 在 m 很 大 的 时 候 ， 这 个 密度 分 布 近似 于 高 斯 分 布 。 基 于 极 大 似 然 估计 ， 该 分 布 的 均值 估计 和 聚焦 系数 估计 是 
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| `` cosĝ, | 
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EN ~、 
m= A ! (cos0,cos 0, — sing, sin 0,) (3. 28) 
其 中 -人 当 是 1 阶 第 一 类 贝 塞 尔 函 数 和 0 阶 贝 塞 尔 函 数 的 比值。 在 求 得 密度 函数 之 后 ， 在 相应 的 时 间 区 间 上 积分 ， 便 可 以 

求 得 地 点 在 该 时 间 区 间 上 的 概率 。 然 而 ， 这 个 概率 密度 是 单 模 的 ， 对 于 建 模 在 多 个 时 间 段 访问 的 地 点 ， 将 无 法 胜任 。 不 过 这 个 很 

容易 通过 混合 模型 来 实现 ， 更 多 的 技术 细节 此 处 不 再 介绍 。 除 了 可 以 用 混合 的 冯 米 塞 斯 分 布 来 建 模 以 外 ， 还 有 别 的 方法 来 考虑 

平滑 估计 。 特 别 地 ， 可 以 将 时 间 离散 化 之 后 ， 考 虑 相 邻 时 间 区 间 的 相似 性 。 在 估计 参数 时 添加 约束 或 加 权 的 方法 来 实现 时 间 的 周 

期 性 和 平滑 。 比 如 ， 假 设 以 一 天 里 面 的 24 个 小 时 来 考虑 时 间 离 散 化 ， 则 可 以 通过 下 面 的 加 权 公 式 来 估计 地 点 的 访问 时 间 分 布 


Pcn|L) cc SK (~ dl) 


ge 


)Pcg|D) (3. 29) 


其 中 PI) 是 极 大 似 然 估 计 ，K (x) 是 高 斯 核 函 数 ，d (h, g) =min (h-g, 24-h-g) 是 小 时 hth 和 小 时 gtn 的 以 小 时 为 单位 
的 时 间 差 。 可 通过 这 种 距离 定义 的 方式 来 考虑 时 间 的 以 天 为 周期 的 特性 。 


[1] C M Bishop.Pattern Recognition and Machine Learning (Information Science and Statistics) [M] .New York: Springer-Verlag New 


York, Inc., 2006. 


3.2.3 ”时 空降 维 模型 


在 时 间 规 律 性 部 分 ,已 经 估计 了 特定 时 间 下 的 地 点 分 布 。 不 过 这 个 地 点 是 离散 化 之 后 的 兴趣 区 域 (或 者 是 兴趣 点 ) ， 因 而 没 
有 考虑 区 域 之 间 (或 者 是 兴趣 点 之 间 ) 的 距离 关系 。 为 此 ， 假 设 |X 和 ly 是 位 置 | 的 x 和 y 坐 标 ， 那 么 时 空降 维 模型 需要 建 模 
p (lx, ly. 的 分 布 。 之 所 以 称 之 为 时 空 聚 类 模型 ， 原 因 在 于 人 们 移动 模型 的 规律 性 ， 比 如 体现 在 以 家 和 工作 地 点 为 中 心 的 移 
动 。 换 名 话说， 人们 去 的 大 部 分 地 点 均 是 在 这 些 中 心 的 附近 。 这 种 时 空降 维 模型 可 以 采用 聚 类 的 方法 来 实现 ， 正 如 参考 文 
献 [21] 中 所 建 模 的 那样 ;也 可 以 采用 主 成 分 分 析 的 方法 来 实现 ， 正 如 参考 文献 [104] 中 所 设计 的 那样 。 也 可 以 对 特定 时 间 区 
间 上 的 移动 数据 进行 二 维 核 密度 估计 ， 来 建 模 概率 密度 分 布 。 下 面 将 主要 介绍 前 面 两 种 方法 。 


对 于 聚 类 方法 来 说 ， 假 设 每 个 时 间 区 间 内 访问 的 地 点 分 布 是 含 二 个 聚 类 中 心 的 高 斯 混合 模型 ， 一 个 中 心 为 家 ， 另 外 一 个 中 心 
为 工作 地 点 ; 所 以 在 该 模型 中 的 每 个 时 间 区 间 内 都 只 有 这 两 种 状态 ， 要 么 在 家 的 附近 ， 要 么 在 工作 单位 附近 。 特 别 地 


Pi ID =r NGO 90D Nee (3. 30) 


若 用 隐 状 态 随 机 变量 ZE{H，W} 表 示 在 家 或 工作 这 两 种 状态 ， 那 么 r_ (t) =P (Z-H[t) 则 表示 在 t 时 刻 在 家 的 概率 ，Z 表 示 t 
时 刻 的 状态 。hH 和 hw 分 别 表 示 家 和 工作 单位 的 物理 位 置 ， 而 2H 和 ZW 分 别 表 示 对 应 的 协 方差 矩阵 。 利 用 贝 叶 斯 公式 进行 变换 ， 


PG|Z = DPZ = H) 


UU Sou P01Z= FZ2=， 使 得 只 要 去 关注 P (tlZ=z) 的 建 模 就 可 以 。 通 过 与 时 间 规 律 性 类 似 的 建 模 方法 ， 不 过 是 截断 的 高 斯 分 
布 而 非 冯 : 米 塞 斯 分 布 来 建 模 ， 特 别 地 


2 12 


l x \ GS £3" 
P(t|Z = z) = ——exp| — [i55] 一 一 圭一 (3.31) 
20. 
其 中 (到 是 概率 空间 从 [O, 24) 变换 到 [0，2r) 的 变换 系数 ， 这 个 和 时 间 规 律 性 中 的 变换 目标 是 一 致 的 。 在 这 个 方法 
中 ， 昌 然 在 计算 均值 之 时 可 以 考虑 周期 特性 和 循环 特性 ， 但 是 概率 密度 函数 本 身 对 于 建 模 这 种 循环 特性 还 是 存在 严重 的 不 足 。 比 
如 说 ，Tz=0， 而 考虑 t=23 和 t= 1 的 概率 相差 是 很 大 的 。 因 此 ， 这 个 工作 可 以 在 这 些 方面 进行 改进 。 图 3.4 给 出 了 某 个 用 户 随 着 时 
间 的 变化 从 工作 单位 到 住所 的 转移 过 程 的 位 置 密度 变化 。 在 给 定时 间 之 后 ， 给 定 这 个 概率 分 布 ， 就 可 以 对 位 置 进行 预测 了 。 


] 


0.5 ] 
Midnight 


图 3.4 用 户 位 置 随时 间 变 化 的 过 程 
除了 聚 类 方法 以 外 ， 主 成 分 分 析 也 是 一 种 重要 的 时 空降 维 模型 。 该 模型 不 仅 可 以 发 现时 间 的 相似 性 、 地 点 上 的 聚集 效应 ， 还 
可 以 刻画 时 间 和 地 点 之 间 的 相关 性 。 特 别 地 ， 它 从 每 个 人 的 移动 数据 中 构造 出 一 个 和 矩阵， 其 中 一 种 矩阵 构造 的 做 法 是 该 矩阵 
RERNxD 的 每 一 行 对 应 用 户 每 一 天 的 访问 历史 ， 是 一 个 D= 56 维 的 向 量 ， 包 括 这 一 天 里 面 每 个 小 时 的 平均 经 度 、 平 均 纬度 ， 以 及 
是 星期 几 和 是 否 节 假日 。 那 么 每 个 矩阵 的 行 数 和 记录 的 天 数 是 一 样 多 的 。 首 先 ， 对 这 个 矩阵 进行 标准 化 尺 一 (NSR)Rdagte n. 
其 中 a 是 每 一 列 的 标准 差 。 再 对 标准 化 的 矩阵 及 使 用 主 成 分 分 析 ， 抽 取出 被 称 之 为 “特征 天 ” (Eigenday) 的 奇异 向 量 ， 特 别 地 


R = USV! (3,832) 


其 中 U= [uk .., UK] ERNxk 表 示 前 k 个 左 奇异 向 量 为 列 组 成 的 矩阵 ， 而 V= [v1 .., v] eRP* Bk t RAE 
为 列 组 成 的 矩 孟 。S= diag (A) 为 奇异 值 组 成 的 对 角 阵 。 那 么 此 时 R 中 的 每 一 行 就 表示 为 ” “”” 也 就 是 说 矩阵 的 每 一 
行 ， 是 前 k 个 右 奇 异 向 量 的 线性 组 合 。 图 3.5 画 出 了 某 个 人 的 10 个 最 大 奇异 值 对 应 的 右 奇异 向 量 ， 从 中 可 以 看 到 这 个 方法 可 以 自 
动 地 揭示 位 置 在 一 天 中 随时 间 变 化 的 过 程 ， 以 及 位 置 分 布 和 星期 、 是 否 节假日 之 间 的 关系 。 在 预测 时 ， 假 设 给 定时 间 t， 先 抽取 
和 时 间 相关 的 8 个 特征 ， 其 他 48 个 特征 用 对 应 均值 填充 。 假 设 这 56 个 特征 用 p 来 表示 ， 在 标准 化 之 后 再 投影 到 由 右 奇 异 向 量 组 成 
的 空间 中 。 特 别 地 ， 寻 找 每 个 “特征 天 ”的 权重 使 得 ||Vw-diag (01) x (p-p) | 最 小 。 对 应 的 权重 则 为 w=VTdiag (o!) 

(p-p) 。 由 于 56 个 特征 中 的 48 个 特征 均 是 用 对 应 列 均值 填充 的 ， 那 么 w 是 由 其 余 的 8 个 时 间 特 征 对 应 的 向 量 加 权 组 合 而 成 的 。 
注意 ， 这 里 的 时 间 特 征 对 应 的 向 量 不 是 奇异 向 量 。 在 求 得 w 之 后 ， 通 过 diag (075) Vw+b 来 获得 t 的 小 时 部 分 的 经 纬度 ， 从 而 实 


现 了 预测 在 t 时 刻 的 位 置 的 目标 。 另 外 ， 其 实 通过 diag (01) Vw+h 求 出 了 用 户 在 t 所 在 那天 里 每 个 小 时 的 位 置 (就 是 经 纬度 ) 。 
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图 3.5 ”对 应 了 最 大 特征 值 的 特征 向 量 的 “特征 天 ” 


3.24 ”社交 天 系 影响 


随 着 移动 社交 网 络 的 发 展 ， 社 交 关 系 对 于 移动 模型 的 影响 得 以 量化 和 评估 。 这 种 研究 源 于 社交 关系 和 地 理 位 置 远近 的 相关 
Vr secs as SB ented) ANGE. MM" 
+ 社交 关系 ) 、Foursquare (签到 + 社交 关系 ) ， 等 等 。 在 这 个 方向 上 ， 有 两 类 非常 有 趣 的 研究 。 第 一 类 是 ， 地 理 因 素 对 于 网 络 
结构 的 影响 。 而 另 一 方面 则 是 同 质 性 ， 即 互 为 朋友 关系 的 人 们 更 有 可 能 会 参与 到 相关 的 活动 中 。 研 究 社交 关系 对 于 移动 模型 的 影 
响 属 于 同 质 性 的 范畴 。 不 过 在 阐述 这 些 内 容 之 前 ， 先 看 看 在 不 同 数据 上 任意 两 个 人 之 间 是 朋友 的 概率 和 他 们 距离 远近 之 间 的 关 
系 。 如 图 3.6 的 左 图 和 中 图 ， 距 离 和 朋友 的 概率 是 显现 宕 律 分 布 的 。 也 就 说 ， 大 多 数 人 的 朋友 都 是 本 地 的 ， 也 存在 一 小 部 分 的 外 
地 (可 能 距离 很 远 ) 的 朋友 ， 这 也 可 以 说 明 这 些 社交 网 络 的 小 世界 特性 。 尚 且 用 人 们 登记 的 居住 地 址 便 可 以 获得 社交 和 地 理 临 近 
性 之 间 的 显著 的 相关 关系 ， 利 用 更 为 细致 的 移动 数据 ， 可 以 更 加 深刻 地 认识 移动 相似 性 和 朋友 的 关系 。 这 一 方面 源 于 其 可 以 更 加 
精确 地 推断 出 居住 地 的 地 址 ， 另 外 一 方面 则 是 因为 其 包含 了 人 们 日 常生 活 的 很 多 方面 。 比 如 斯 坦 福 大 学 的 Jure Leskove 教 授 在 参 
考 文献 [21] 中 对 移动 社交 网 络 数据 的 分 析 发 现 ， 在 朋友 住地 附近 移动 ， 或 者 访问 朋友 之 前 访问 过 的 地 点 的 概率 会 随 着 距离 的 
增加 而 减 小 ， 而 县 朋友 关系 对 于 移动 的 影响 是 随 着 距离 的 增加 而 增强 的 ， 即 朋友 关系 对 于 长 距离 移动 的 影响 较 大 。 从 移动 轨迹 的 
相似 性 和 朋友 概率 的 关系 分 析 中 也 可 以 发 现 它们 之 间 的 强 相关 性 ， 从 而 应 该 利用 社交 关系 以 帮助 移动 预测 ， 只 是 由 于 过 半 用 户 和 
他 的 朋友 没有 共同 访问 地 点 ， 因 而 对 于 移动 预测 的 提升 只 是 有 限 的 。 另 外 ， 由 于 社交 关系 的 时 间 特 性 可 以 在 数据 中 体现 出 来 ， 地 
理 临 近 性 和 社交 之 间 的 因果 分 析 成 为 可 能 。 特 别 地 ， 获 取 一 定时 间 间隔 的 社交 关系 ， 分 析 首次 获取 社交 关系 之 后 短期 内 的 移动 数 
据 ， 可 以 用 来 测量 社交 对 于 移动 的 影响 ， 而 分 析 首 次 获取 社交 关系 之 前 短期 内 的 移动 数据 和 两 次 社交 关系 的 差异 性 ， 可 以 帮助 分 
析 获 得 移动 模式 对 于 社交 演化 的 影响 。 分 析 的 结果 发 现 ， 朋 友 关系 对 于 移动 的 影响 是 移动 对 于 社交 演化 影响 的 2.5 倍 。 尽 管 如 
此 ， 基 于 移动 模式 的 相似 性 来 预测 朋友 关系 的 形成 仍然 成 为 可 能 Poll7]。 由 于 这 一 部 分 的 内 容 不 是 本 章 乃 至 本 书 的 重点 ， 因 此 此 
处 便 不 再 继续 介绍 。 
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图 3.6 ”朋友 关系 和 距离 远近 的 相关 性 
i: 左 图 : LiveJournal 数 据 ， 中 图 : Facebook 数 据 集 ; GA: Flickr 数 据 集 。 


社会 学 理论 和 对 数据 的 统计 分 析 ， 均 已 说 明了 社交 关系 对 于 移动 预测 的 作用 。 下 面 将 进一步 说 明 如 何 利用 社交 关系 来 改进 移 
动 预 测 模 型 。 主 要 的 方法 均 采 用 线性 加 权 的 方法 。 不 过 ， 不 同 的 方法 主要 有 两 个 方面 的 不 同 。 一 方面 是 ， 加 权 的 权重 是 否 需 要 非 
负 约 束 ， 是 否 需 要 学 习 ? 另外 一 个 方面 是 ， 社 交 预 测算 法 是 否 要 借助 预测 性 算法 ? 比如 在 参考 文献 [21] 中 ， 权 重 被 认为 是 混 
合 模 型 中 的 混合 因子 ， 即 通过 社交 预测 模型 的 似 然 和 常规 预测 模型 的 似 然 比值 来 确定 的 ;而 其 中 的 社交 预测 算法 只 是 利用 朋友 同 
一 天 里 之 前 的 签到 记录 ， 特 别 地 ， 假 设 空间 中 位 置 的 随机 变量 为 x， 对 于 用 户 u 的 预测 算法 为 


P,(a|t) ~ » Hace] ea eov 923) 


Ct; ^j ) c J u 


其 中 t 和 xj 分 别 表 示 第 个 签到 的 时 间 和 位 置 。 而 Ju 表示 用 户 u 的 朋友 在 同一 天 的 签到 记录 。 采 用 这 种 形式 的 社交 预测 模型 ， 是 
因为 发 现 用 户 和 朋友 访问 同一 地 点 的 时 间 间 隔 是 满足 医 律 分 布 的 ， 而 用 户 在 同一 时 间 的 访问 地 点 之 间 的 距离 分 布 也 满足 窜 律 分 
布 。 而 在 参考 文献 [30] 中 ， 则 采用 固定 的 可 调 的 参数 来 进行 加 权 。 而 社交 预测 模型 ， 是 带 有 预测 能 力 的 ， 是 基于 朋友 的 移动 
数据 作为 特征 、 用 户 的 位 置 作为 学 习 目 标 ， 来 进行 训练 的 ， 这 种 思路 在 参考 文献 [103] 中 进行 了 更 为 细致 的 建 模 。 而 且 考 虑 到 
不 同 杀 密 程度 朋友 间 的 影响 力 的 差异 性 ， 对 于 不 同 朋友 的 预测 模型 可 用 亲密 程度 进行 加 权 。 
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3.2.5 Ara 


新 颖 地 点 是 用 户 从 未 去 过 的 地 点 。 假 设 用 户 u 的 移动 历史 记录 记 为 Cy， 而 Ci 守 Ci 则 是 在 时 刻 t 之 前 的 移动 数据 历史 ， 也 就 是 
HCH (cE Glen. 此 表示 了 在 C“ 中 访问 位 置 的 集合 ， 也 就 是 说 二 (LEL| 3 cc 一作。 那么 ， 在 t 时 刻 ， 地 点 的 新 颖 性 定 
义 如 下 : 


定义 2 (新 颖 地 点 ) ”一 个 地 点 1 €L， 如 果 它 满足 :EL， 那 么 在 时 刻 t 其 针对 用 户 u 是 新 颖 的 。 换 和 句 话说， 某 个 用 户 在 茶 个 时 


刻 的 新 颖 位 置 是 指 那些 在 这 个 时 刻 之 前 还 未 访问 过 的 位 置 。 


类 似 于 新 颖 位 置 的 定义 ， 我 们 也 可 以 为 用 户 定义 用 户 的 常规 位 置 ， 就 是 那些 用 户 已 经 签到 过 的 地 点 。 根 据 新 颖 位 置 和 常规 位 
置 的 定义 ， 我 们 可 以 给 每 个 移动 记录 的 地 点 标定 它 是 不 是 新 颖 的 。 特 别 地 ， 对 用 户 u 的 任何 一 个 移动 记录 ce Cu， 如 果 满足 c. 
14L;'， 那 么 他 的 位 置 cl 在 时 刻 c.t 是 新 颖 的 否则 就 是 常规 的 。 相 应 的 移动 记录 也 将 被 分 类 成 新 颖 的 或 常规 的 。 既 然 用 户 在 t 时 刻 访 
间 的 位 置 是 用 户 还 未 访问 过 的 地 点 ， 那 和 用 上 节 中 的 诸如 马尔 可 夫 模 型 、 时 间 规 律 性 等 相关 的 模型 来 进行 移动 预测 将 变 得 异常 困 
难 。 尽 管 由 于 相 邻 位 置 之 间 的 地 理 | 临 近 性 、 社 交 移 动 预 测 方案 和 时 空 聚 类 模型 可 以 起 到 一 定 的 作用 。 可 以 设想 ， 如 果 用 户 去 访问 
从 未 访问 过 的 位 置 ， 那 么 这 个 位 置 要 么 是 和 朋友 一 起 去 的 ， 要 么 是 符合 他 /她 的 兴趣 偏好 的 。 对 于 和 朋友 共同 出 行 的 预测 ， 应 该 
难于 用 上 节 中 的 社交 移动 预测 模型 来 进行 预测 。 不 过 ， 可 以 针对 朋友 的 “共同 出 现 预测 ”来 实现 预测 中]。 对 于 符合 兴趣 的 新 颖 地 
点 预测 ， 便 可 以 采用 诸如 降 维 等 兴趣 挖掘 的 模型 ， 然 后 把 用 户 的 兴趣 偏好 和 地 点 的 特性 进行 匹配 ， 从 而 来 实现 新 颖 地 点 的 预测 。 
由 于 这 一 部 分 的 内 容 和 第 5 章 的 兴趣 位 置 推荐 模型 紧密 相关 ， 更 详细 的 内 容 请 参考 第 5 章 的 内 容 。 


[1] L McNamara, C Mascolo, L Capra.Media sharing based on colocation prediction in urban transport [C] .In Proceedings of the 14th 


ACM international conference on Mobile computing and networking, ACM, 2008. 


3.2.6 “预测 算法 的 融合 


新 颖 地 点 预测 算法 和 常规 位 置 预测 算法 的 预测 目标 不 同 ， 所 擅长 的 方向 也 有 所 不 同 ， 因 而 需要 具体 的 融合 方法 。 当 然 ， 也 可 
以 采用 机 器 学 习 中 的 集成 学 习 方法 来 进行 集成 。 为 使 得 融合 模型 更 具有 解释 性 ， 本 节 将 介绍 两 种 主要 的 混合 模型 的 方法 。 第 一 种 
是 基于 新 颖 性 探索 预测 的 混合 模型 ， 第 二 种 是 基于 移动 本 地 化 的 融合 模型 。 


基于 新 颖 性 探索 预测 的 加 权 模 型 


第 一 种 融合 模型 是 基于 新 颖 性 探索 预测 的 概率 估计 来 实现 的 。 探 索 预 测 是 预测 下 一 个 访问 地 点 是 否 为 用 户 曾经 访问 过 的 ， 即 
是 否 为 新 颖 的 地 点 。 如 果 预 测 下 一 个 地 点 是 新 颖 的 ， 那 么 就 采用 新 颖 性 地 点 预测 的 方法 ; 如 果 下 一 个 地 点 预测 为 常规 地 点 ， 那 么 
就 采用 常规 的 移动 行为 预测 模型 。 更 形式 地 ， 探 索 预 测 ， 可 以 按照 如 下 定义 : 


定义 3 (探索 预测 ) ”给 定 用 户 u 的 位 置 历史 Cj， 关 于 他 的 探索 预测 问题 是 预测 下 个 签到 位 置 是 否 为 新 颖 的 地 点 。 


因此 ， 在 预测 下 一 个 地 点 访问 是 否 为 新 颖 地 点 的 时 候 ， 我 们 并 不 需要 事先 知道 下 一 个 地 点 是 什么 而 只 是 确定 下 一 个 位 置 是 新 
颖 地 点 还 是 常规 地 点 。 因 而 ， 这 个 预测 可 以 很 自然 地 归结 为 一 个 二 分 类 问题 。 这 个 二 分 类 问题 在 给 定 特征 作为 输入 之 后 ， 依 据 使 
用 的 二 分 类 算法 的 不 同 ， 既 可 以 输出 分 类 的 结果 (地 点 是 否 为 新 颖 ) 又 可 以 给 出 新 颖 性 探索 的 趋势 ， 即 下 个 位 置 为 新 颖 的 概率 。 
在 这 个 二 分 类 问题 中 ， 可 以 使 用 基于 历史 的 特征 、 时 间 特 征 和 空间 特征 三 类 特征 。 


首先 ， 基 于 历史 的 特征 不 仅 概括 了 人 们 追求 新 奇 的 个 性 特质 (他 们 有 多 喜欢 做 探索 签到 ) 而 且 还 反映 了 人 们 当前 追求 新 奇 的 
状态 (包括 了 他 们 当前 是 否 正在 做 探索 ， 以 及 还 剩 下 多 少 机 会 可 以 做 探索 ) 。 关 于 人 们 当前 追求 新 奇 的 状态 ， 假 设 一 个 用 户 在 她 
活动 范围 的 附近 访问 了 很 多 地 方 ， 那 么 她 在 这 周围 继续 探索 的 可 能 性 就 比较 小 。 其 次 ， 时 间 信 息 在 很 多 位 置 预 测 的 情形 下 都 是 假 
设 给 定 的 [1 外] 几 ,而且 人 们 在 不 同 的 时 候 会 有 不 一 样 的 追求 新 奇 的 状态 ， 因 此 我 们 引入 了 时 间 特 征 来 考虑 时 间 信息 对 探索 预测 
的 效果 。 比 如 说 人 们 在 周末 的 时 候 可 能 会 更 喜欢 做 探索 。 而 县 根据 之 前 的 分 析 ， 我 们 可 以 看 到 离 上 一 个 位 置 的 时 间 差 也 会 影响 到 
探索 预测 ， 因 此 这 个 特征 也 被 放 入 时 间 特 征 中 。 最 后 ， 我 们 也 考虑 了 空间 特征 来 做 探索 预测 ， 因 为 人 们 在 不 同 熟悉 程度 的 地 方 会 
有 不 同 的 新 颖 性 探索 趋势 。 比 如 说 ， 如 果 一 个 人 到 了 一 个 陌生 的 地 方 〈 比 如 城市 ) ， 那 么 她 在 这 个 地 方 的 新 颖 性 探索 的 倾向 性 就 
会 变 大 。 然 而 ， 空 间 特 征 在 位 置 预测 的 情形 下 通常 是 不 可 用 的 ， 但 是 却 可 以 用 到 位 置 命名 中 已 [oj， 或 者 传感器 增强 的 移动 手机 定 
位 中 [8I9， 因 此 我 们 假设 “粗略 的 物理 位 置 ”信息 也 是 可 用 的 。 

下 面 仔细 介绍 各 类 特征 含有 的 相关 子 特征 ， 并 分 析 这 些 子 特征 和 地 点 是 否 为 新 颖 性 之 间 的 相关 性 。 这 个 研究 是 观测 新 颖 性 探 


索 的 概率 是 如 何 随 着 相应 的 特征 而 发 生变 化 的 ， 如 图 3.7 所 示 。 不 失 一 般 性 ， 我 们 假设 特征 是 针对 位 置 访问 记录 〈u，t，i》 来 进 
行 的 。 
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图 3.7 移动 社交 网 络 Gowalla 各 类 特征 和 地 点 的 新 颖 性 的 相关 性 分 析 


从 一 个 用 户 过 去 的 历史 ‘5? 中 抽取 得 到 的 基于 历史 的 特征 ， 可 以 包括 下 面 的 特征 : 第 一 ， 不 同 地 点 的 个 数 。 正 如 在 参考 文 
Bk [113] 中 所 假设 的 那样 ， 探 索 的 概率 与 访问 的 不 同位 置 数 是 成 看 律 关 系 的 ， 如 图 3.7a。 在 人 们 的 活动 范围 周围 访问 过 很 多 地 
点 之 后 ， 他 们 继续 探索 新 颖 位 置 的 倾向 性 就 会 变 弱 ， 因 此 不 同 地 点 的 个 数 反映 了 用 户 当前 的 追求 新 奇 的 状态 。 第 二 ， 地 点 访问 频 


» 


ZORA, CAL RIOTES RSG LAER A SERI, fs, IBARRARA E 然而 ， 这 个 分 布 
ks LATA ASSES RSERBUMEOE ME, ATHATA APSARA, RIBS 
RAEI. HEHE, SSlogsS-H/EAATISAIE. AERAR EEEE. 7b, BB 
Sia), WANES AMRE, AMBP RAHA IS. MTR, RIALS 
分 布 更 均匀 的 用 户 会 更 倾向 于 在 新 颖 位 置 签到 。 这 个 量 反 映 了 人 们 追求 新 颖 性 的 个 性 特质 。 第 三 ， 新 颖 率 ， 即 在 时 刻 t 之 前 的 在 
新 颖 地 点 的 访问 记录 与 总 记录 数目 的 比例 ， 也 反映 了 人 们 当前 的 新 颖 性 探索 的 状态 。 当 人 们 移动 历史 记录 中 的 新 颖 率 越 高 ， 用 户 
在 访问 新 颖 地 点 的 倾向 性 就 越 强 。 第 四 ， 移 动 数据 历史 C: 中 的 天 数 。 如 图 3.7c 所 示 ， 随 着 时 间 的 慢 慢 推移 ， 人 们 进行 探索 的 概 

率 会 变 得 更 小 。 一 方面 是 因为 ， 人 们 在 经 过 一 段 时 间 的 探索 之 后 ， 可 能 已 经 有 较为 丰富 的 可 选择 空间 ; 另外 一 方面 是 因为 探索 所 
带 来 的 开销 ， 比 如 要 访问 更 远 的 距离 或 要 花 更 多 的 时 间 。 第 五 ， 上 一 个 地 点 的 新 颖 性 。 它 和 当前 地 点 的 新 颖 性 关系 如 图 3.7d 所 


示 ， 当 上 一 个 地 点 是 新 颖 的 时 候 ， 人 们 有 可 能 会 继续 访问 新 颖 地 点 ， 这 可 能 发 生 在 人 们 来 到 陌生 区 域 的 时 候 ; 而 当前 一 个 地 点 是 
常规 的 时 候 ， 人 们 也 更 倾向 于 继续 在 常规 位 置 签到 。 


基于 物理 位 置 的 和 用 户 签到 历史 (抽取 空间 特征 ， 可 以 包括 下 述 特征 : 第 一 ， 当 前 访问 位 置 和 之 前 所 有 访问 位 置 的 平均 距 
离 。 当 距离 越过 了 区 域 的 边界 时 ， 便 可 以 断定 人 们 来 到 了 陌生 的 城市 或 区 域 。 第 二 ， 物 理 位 置 | 的 位 置 访 问 频率 分 布 粹 Hl。 给 定 
物理 位 置 |， 先 检索 在 周边 访问 的 所 有 用 户 ， 并 计算 各 个 用 户 的 访问 频率 。 假 设 有 MI 个 用 户 在 这 个 物理 位 置 的 周围 进行 了 签到 ， 


而 且 他 们 的 签到 频率 分 别 是 “, cos : 那么 这 个 位 置 的 位 置 精 就 是 ” ”> ^ 一 个 位 置 的 高 分 布 嫉 ， 不 仅 可 能 源 于 所 有 用 户 
在 周边 的 访问 频率 更 均匀 ， 而 且 可 能 源 于 有 更 多 的 用 户 来 这 个 地 方 访问 。 相 反 ， 在 具有 低 分 布 焙 的 地 点 周边 ， 由 于 大 部 分 的 访问 
记录 是 由 小 部 分 人 提供 的 ， 这 些 人 还 可 能 仍然 会 继续 在 这 些 地 方 签到 。 第 三 ， 访 问 率 ， 在 物理 位 置 | 周边 常规 地 点 在 所 有 可 能 

点 中 的 比例 。 如 果 这 个 访问 率 很 高 ， 那 么 大 部 分 的 位 置 用 户 都 已 经 访问 过 了 ， 所 以 继续 做 探索 的 可 能 性 就 很 小 。 如 果 访 问 率 很 


小 ， 那 么 仍然 还 有 很 多 的 地 点 可 以 继续 做 探索 访问 ， 所 以 探索 概率 也 会 较 高 ， 如 图 3.7f 所 示 的 那样 。 


从 时 间 信 息 中 抽取 的 时 间 特 征 ， 可 以 包括 下 列 特征 : 第 一 ， 当 日 时 间 。 这 个 特征 体现 在 人 们 追求 新 奇 的 状态 在 同一 天 里 面 的 
不 同时 刻 会 有 所 不 同 ， 如 图 3.7g 所 示 的 那样 。 特 别 地 ， 在 中 午 和 晚上 ， 人 们 的 行为 是 更 规律 的 。 第 二 ， 星 期 几 。 类 似 于 一 天 中 的 
24 小 时 ， 在 一 个 星期 的 不 同日 子 中 ， 人 们 追求 新 奇 的 状态 也 是 不 一 样 的 。 通 常人 们 在 周末 的 时 候 做 探索 的 可 能 性 比较 大 ， 因 为 
他 们 在 这 个 时 候 会 有 更 多 空闲 的 时 间 来 选择 更 适合 、 更 有 趣 的 地 点 。 第 三 ， 周 小 时 。 对 应 了 在 方差 分 析 中 ， 考 虑 星期 和 当日 时 间 
的 二 阶 交 互 变量 。 第 四 ， 离 上 个 签到 过 了 多 少 个 小 时 。 它 和 地 点 的 新 颖 性 关系 如 图 3.7h 所 示 。 当 时 间 间 隔 在 1 天 之 内 ， 那 么 下 一 
个 位 置 访问 就 更 有 可 能 是 在 常规 位 置 ， 在 12 个 小 时 左右 的 可 能 性 最 大 。 


基于 这 些 特征 ， 以 位 置 访问 记录 〈u，t，i》 中 的 地 点 是 否 在 t 之 前 的 历史 中 出 现 作为 分 类 目标 ， 训 练 二 分 类 器 。 这 个 二 分 类 
模型 可 以 采用 逻辑 斯 特 回 归 和 分 类 与 回归 树 。 不 过 上 述 的 特征 可 能 不 都 在 一 个 尺度 之 内 ， 因 而 需要 在 使 用 分 类 模型 之 前 就 进行 标 
准 化 或 进行 特征 变换 。 关 于 分 类 器 的 输出 ， 根 据 模型 融合 的 需要 ， 要 考虑 两 种 情况 : 其 中 一 个 就 是 二 分 类 的 结果 ， 即 下 一 个 地 点 
是 否 为 一 个 新 颖 地 点 ; 另外 一 个 就 是 概率 值 ， 决 定 了 探索 的 倾向 性 。 如 果 假 设 新 颖 作为 正 例 ， 那 么 这 个 概率 值 就 对 应 了 探索 的 可 
ett. 


fi 


amp 


假设 探索 预测 的 二 分 类 算法 输出 Pr (Explore) ， 来 统一 上 述 的 两 种 情形 。 假 设 不 管 是 常规 地 点 的 预测 算法 还 是 新 颖 地 点 的 
预测 算法 均 输 出 概率 形式 的 结果 : 常规 位 置 预测 算法 的 概率 输出 Pr (D) 及 新 颖 位 置 预测 算法 的 概率 输出 Pn (1) ， 这 两 个 算法 的 
融合 可 以 通过 下 述 的 加 权 方 式 来 进行 


P(I) = Pr(Explore) P, CD) +1 —PrCExplore)) PCD (3. 34) 


如 果 Pr (Explore) e{0，1} 对 应 分 类 情形 ， 即 预测 下 一 个 地 点 是 否 为 新 颖 地 点 ， 那 么 便 可 以 在 常规 预测 模型 和 新 颖 地 点 的 
预测 模型 中 进行 转换 。 具 体 来 说 ， 当 人 们 被 预测 去 做 探索 的 时 候 Pr (Explore) =1，Pn (D) 被 用 来 寻找 新 颖 的 候选 位 置 ; 否则 
Pr (Explore) =0， 那 么 Pr (I) 就 被 应 用 来 找到 用 户 接 下 来 最 有 可 能 去 访问 的 位 置 。 由 于 Pr (Explore) 是 离散 值 ， 我 们 把 这 种 
方法 表示 成 “ 硬 ” 结 合 。 如 果 Pr (Explore) € [0，1] ， 也 就 是 EP 输 出 一 个 在 新 颖 地 点 访问 的 概率 ( 即 探索 的 概率 ) ， 那 么 我 
们 可 以 把 常规 预测 模型 和 新 颖 地 点 预测 推荐 模型 做 线性 加 权 ， 使 得 新 颖 位 置 和 常规 位 置 会 被 放 在 一 起 做 综合 排序 来 做 最 终 的 位 置 
预测 。 由 于 Pr (Explore) 是 一 个 连续 值 ， 把 这 种 方法 也 称 为 “ 软 ” 结 合 。 这 样 的 命名 规则 与 两 类 不 同 的 聚 类 方法 (k 均 值 和 高 
斯 混合 模型 ) 的 命名 规则 相 类 似 。 


基于 移动 本 地 化 的 混合 模型 


从 上 述 的 分 析 可 以 看 到 ， 人 们 的 探索 主要 发 生 在 他 们 来 到 陌生 地 方 之 时 ， 因 为 他 们 对 陌生 地 方 的 了 解 是 少 之 又 少 。 如 果 能 


一 个 系数 来 刻画 一 个 人 对 城市 的 熟悉 程度 ， 那 么 这 个 系数 也 可 以 被 用 来 做 常规 位 置 预测 模型 和 新 颖 位 置 预测 模型 的 融合 。 这 个 熟 
悉 程度 也 可 称 为 土著 化 程度 ， 即 体现 了 一 个 人 在 一 个 城市 有 多 像 是 本 地 人 。 如 果 用 户 土著 化 的 程度 越 高 ， 表 示 对 相应 城市 的 了 解 
越 深 ， 那 么 对 相应 城市 的 移动 预测 就 应 该 用 常规 预测 模型 。 而 如 果 土 著 化 程度 很 低 ， 则 表示 对 城市 的 了 解 很 少 ， 那 么 就 应 该 更 多 
地 依赖 于 新 颖 位 置 预测 模型 。 因 而 ， 这 个 系数 刚好 和 新 颖 性 探索 趋势 是 相反 的 。 

关于 土著 化 程度 的 刻画 ， 有 两 类 比较 常用 的 指标 (1 中 。 第 一 个 指标 是 个 体 行为 系数 i， 是 重复 性 移动 模式 的 比例 。 因 为 统计 发 


现 本 地 人 相对 于 非 本 地 人 而 言 更 有 可 能 多 次 访问 同一 地 点 ， 如 图 3.8a 所 示 。 图 3.8a 画 出 了 本 地 人 和 外 地 人 各 体 基尼 系数 的 累积 概 


率 分 布 ， 表 明 外 地 人 的 基尼 系数 普遍 大 于 本 地 人 。 因 为 基尼 系数 是 用 户 访问 地 点 分 布 平均 程度 的 一 个 度量 ， 所 以 外 地 人 的 地 方 访 
问 分 布 平均 程度 更 大 。 也 就 是 说 ， 大 部 分 地 方 都 只 去 一 次 。 如 果 假 设 NT 是 移动 历史 的 记录 总 数 ， 而 ND 是 用 户 访问 的 不 同 地 点 
数 ， 那 么 个 体 行为 系数 的 定义 如 下 
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图 3.8 ”本 地 人 和 外 地 人 的 地 点 访问 分 布 的 异 质 性 差异 


第 二 个 指标 是 群体 行为 系数 le， 是 用 户 访问 地 点 的 平均 归 一 化 热度 ， 因 为 本 地 人 相对 于 外 地 人 而 言 ， 
能 性 更 低 ， 如 图 3.8b 所 示 。 图 3.8b 画 出 了 本 地 人 和 外 地 人 地 点 访问 频率 的 洛 伦 效 曲线 。 洛 伦 北 曲线 本 是 用 于 刻画 贫 富 差距 的 工 
具 ， 当 曲线 越 靠近 对 角 线 ， 财 富 就 越 平均 。 因 而 图 3.8 说 明 外 地 人 群体 访问 的 地 点 分 布 更 为 集中 。 通 过 对 他 们 访问 地 点 的 流行 分 


Vit I 23 
度 分 析 ， 可 以 看 到 外 地 人 访问 的 更 多 是 流行 度 高 的 地 点 。 因 而 ， 给 定 R (lk) 表示 地 点 |k 的 归 一 化 的 流行 度 排 名 ， 那 么 这 个 群体 行 
为 系数 可 按照 如 下 方式 来 定义 


NT 
> RO) 


k=1 


这 两 个 土著 化 的 系数 可 以 进一步 地 定义 一 个 整合 的 系数 ， 即 
u ji 
1+ exp(— wil; — wl.) 


其 中 w 和 wc 的 系数 可 以 通过 逻辑 斯 特 回归 的 方法 来 分 类 人 们 的 本 地 人 和 外 地 人 属性 来 进行 学 习 。 在 学 习 这 两 个 参数 之 后 ， 
就 得 到 了 一 个 土著 化 程度 的 概率 形式 ， 也 就 得 到 了 一 个 对 应 的 新 颖 性 探索 的 概率 。 
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BAE ”基于 移动 数据 的 用 尸 男 像 


“用 户 画 像 ”起 源 于 交互 设计 之 父 艾 伦 : 库 珀 提出 的 Persona 的 概念 : 通过 数据 了 解 用 户 ， 然 后 根据 他 们 的 目的 、 行 为 和 观 
点 的 差异 ， 将 他 们 分 为 不 同 的 类 型 ， 再 从 每 种 类 型 中 抽取 出 典型 的 特征 ， 赋 予 名 字 、 照 片 、 一 些 人 口 统 计 学 要 素 和 场景 描述 ， 就 
形成 了 一 个 人 物 原 型 (Persona) 。 在 大 数据 时 代 的 进程 中 ， 最 明显 的 变化 莫 过 于 用 户 的 一 切 行为 都 将 是 “可 视 化 ”的 。 随 着 数 
据 挖掘 技术 的 深入 研究 和 应 用 ， 学 术 界 和 工业 界 都 致力 于 通过 数据 留 下 的 痕迹 深入 理解 用 户 ， 尤 其 是 工业 界 的 专注 点 日 益 聚 焦 于 
如 何 利用 大 数据 来 为 精准 营销 服务 ， 进 而 深入 挖掘 潜在 的 商业 价值 。 于 是 ，“ 用 户 画像 ”作为 大 数据 的 根基 ， 完 美 地 抽象 出 一 个 
用 户 的 信息 全 有 狐 ， 为 进一步 准确 、 快 速 地 分 析 用 户 的 行为 习惯 和 喜好 提供 了 坚实 的 依据 ， 葛 定 了 大 数据 时 代 的 基石 。 


近年 来 ， 不 少 基于 用 户 行为 的 数据 都 被 用 来 进行 用 户 画像 ， 比 如 约翰 斯 . 霍 普 金 斯 大 学 的 迪 利 普 . 饶 教授 使 用 了 Twitter 上 的 评 
论 和 转发 数据 中 ， 前 剑桥 大 学 的 米 哈 尔 . 科 辛 斯 基教 授 使 用 了 Facebook 里 的 用 户 对 页 面 的 “Like” 数据 自 ， 马 普 研究 所 的 艾 伦 : 米 
斯 拉夫 研究 员 BJ 和 马里 兰 大 学 的 埃 琳 娜 . 哲 儿 瓦 教授 向 使 用 了 社交 网 络 上 的 朋友 关系 数据 。 然 而 ， 用 户 的 移动 数据 作为 连接 用 户 


在 物理 世界 和 网 络 世 界 的 桥梁 ， 在 之 前 的 用 户 画像 工 作 中 往往 被 忽略 了 。 实 际 上 ， 越 来 越 被 广泛 收集 的 用 户 移动 数据 不 仅 如 实 反 
映 了 用 户 的 实际 生活 状态 ， 而 且 与 用 户 的 属性 紧密 相连 ， 可 以 用 来 对 用 户 进行 精准 的 画像 。 本 章 将 介绍 如 何 利用 移动 数据 进行 用 
户 显 性 属性 和 隐 性 属性 的 预测 。 
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4.4. 显 性 属性 预测 


4.1.1 移动 数据 和 显 性 属性 的 关联 


用 户 的 显 性 属性 是 指 通过 观察 能 够 直接 得 到 ， 或 者 通过 技术 手段 能 够 获取 的 用 户 的 客观 特征 ， 比 如 用 户 的 性 别 、 年 龄 、 血 
型 、 职 业 和 受 教育 程度 ， 等 等 。 用 户 的 移动 数据 在 时 间 特 性 (temporality) 、 空 间 特 性 (spatiality) 和 位 置 知 识 (location 
knowledge) 三 方面 都 和 显 性 属性 紧密 相连 。 


- 时 间 特 性 : 用 户 在 不 同时 间 粒 度 下 的 移动 模式 跟 用 户 特征 有 着 明显 的 联系 。 比 如 ， 公 司 的 上 班 族 通常 在 工作 日 的 早晚 高 峰 
时 间 来 往 于 家 和 单位 之 间 ， 退 休 老 人 时 常 在 工作 日 的 下 午 去 超市 购买 生活 用 品 ， 而 出 租车 司机 连 在 假期 的 午夜 时 刻 也 常常 奔波 在 
路 途中 。 图 4.1 展 示 了 用 户 在 不 同类 别 地 点 的 时 间 特 性 ， 比 如 中 午 和 晚饭 时 刻 用 户 通常 在 餐馆 签到 ， 而 公共 交通 相关 的 签到 行为 
常常 发 生 在 早晨 。 


空间 特性 : 用 户 的 移动 行为 通常 发 生 在 物理 世界 ， 受 到 空间 的 距离 约束 。 比 如 ， 用 户 不 可 能 刚 在 合肥 的 中 国 科学 技术 大 学 
签到 ， 几 分 钟 之 后 又 在 北京 的 微软 亚洲 研究 院 签 到 。 而 之 前 用 户 画 像 常常 使 用 的 社交 网 络 数据 比如 Like 行 为 就 没有 这 种 空间 上 的 
特性 。 图 4.2 展 示 了 签到 数据 在 连续 行为 下 的 距离 分 布 ， 可 以 发 现 绝 大 部 分 连续 签到 的 距离 不 会 超过 20 千 米 。 图 4.3 展 示 了 本 地 人 
和 外 地 人 的 签到 空间 热度 图 。 从 图 4.3a 和 图 4.3c 可 以 发 现 ， 本 地 人 的 移动 数据 在 城市 的 各 个 区 域 比 较 发 散 。 而 图 4.3b 和 图 4.3d 则 展 
示 了 外 地 人 的 移动 数据 都 集中 于 热门 景点 等 区 域 。 


. 位 置 知识 : 带 有 明确 语义 类 别 描 述 的 位 置 被 称 为 兴趣 点 (POL ， 比 如 清华 大 学 的 某 一 栋 教 学 楼 或 中 关 村 广场 。 兴 趣 点 的 
语义 知识 与 用 户 的 特征 息息相关 。 比 如 ， 学 生 去 学 校 是 因为 学 校 是 上 课 的 地 方 ， 而 商务 人 士 往往 在 商业 中 心 办 公 是 因为 商业 中 心 
集中 了 大 量 的 商业 业务 。 
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图 4.1 签到 数据 在 不 同类 别 的 兴趣 点 的 时 间 特 性 
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图 4.2 ”签到 数据 在 连续 行为 下 的 距离 分 布 


a) 北京 本 地 人 的 签到 热度 图 b)》 北 京 非 本 地 人 的 签到 热度 图 


c) 上 海 本 地 人 的 签到 热度 图 d) 上 海 非 本 地 人 的 签到 热度 图 


图 4.3 ”本 地 人 和 外 地 人 的 签到 热度 图 


用 户 的 显 性 属性 是 指 通过 观察 能 够 直接 得 到 ， 或 者 通过 技术 手段 能 够 获取 的 用 户 的 客观 特征 ， 比 如 用 户 的 性 别 、 年 龄 、 血 
型 、 职 业 和 受 教 育 程度 ， 等 等 。 用 户 的 移动 数据 在 时 间 特 性 (temporality) 、 空 间 特性 (spatiality) 和 位 置 知识 (location 
knowledge) 三 方面 都 和 显 性 属性 紧密 相连 。 


- 时 间 特 性 : 用 户 在 不 同时 间 粒 度 下 的 移动 模式 跟 用 户 特征 有 着 明显 的 联系 。 比 如 ， 公 司 的 上 班 族 通 常 在 工作 日 的 早晚 高 峰 
时 间 来 往 于 家 和 单位 之 间 ， 退 休 老 人 时 常 在 工作 日 的 下 午 去 超市 购买 生活 用 品 ， 而 出 租车 司机 连 在 假期 的 午夜 时 刻 也 常常 奔波 在 
路 途中 。 图 4.1 展 示 了 用 户 在 不 同类 别 地 点 的 时 间 特 性 ， 比 如 中 午 和 晚饭 时 刻 用 户 通常 在 餐馆 签到 ， 而 公共 交通 相关 的 签到 行为 
常常 发 生 在 早晨 。 


. 空间 特性 : 用 户 的 移动 行为 通常 发 生 在 物理 世界 ， 受 到 空间 的 距离 约束 。 上 比如， 用户 不 可 能 刚 在 合肥 的 中 国 科 学 技术 大 学 
签到 ， 几 分 钟 之 后 又 在 北京 的 微软 亚洲 研究 院 签到 。 而 之 前 用 户 画像 常常 使 用 的 社交 网 络 数 据 比如 Like 行 为 就 没有 这 种 空间 上 的 
特性 。 图 4.2 展 示 了 签到 数据 在 连续 行为 下 的 距离 分 布 ， 可 以 发 现 绝 大 部 分 连续 签到 的 距离 不 会 超过 20 千 米 。 图 4.3 展 示 了 本 地 人 
和 外 地 人 的 签到 空间 热度 图 。 从 图 4.3a 和 图 4.3c 可 以 发 现 ， 本 地 人 的 移动 数据 在 城市 的 各 个 区 域 比 较 发 散 。 而 图 4.3b 和 图 4.3d 则 展 
示 了 外 地 人 的 移动 数据 都 集中 于 热门 景点 等 区 域 。 


. 位 置 知识 : 带 有 明确 语义 类 别 描述 的 位 置 被 称 为 兴趣 点 (POI) ， 比 如 清华 大 学 的 某 一 栋 教 学 楼 或 中 关 村 广场 。 兴 趣 点 的 
语义 知识 与 用 户 的 特征 息息相关 。 比 如 ， 学 生 去 学 校 是 因为 学 校 是 上 课 的 地 方 ， 而 商务 人 士 往往 在 商业 中 心 办 公 是 因为 商业 中 心 
集中 了 大 量 的 商业 业务 。 


POI 
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图 4.1 签到 数据 在 不 同类 别 的 兴趣 点 的 时 间 特 性 


比例 
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图 4.2 ”签到 数据 在 连续 行为 下 的 距离 分 布 
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a) 北京 本 地 人 的 签到 热度 图 b)》 北 京 非 本 地 人 的 签到 热度 图 


c) 上 海 本 地 人 的 签到 热度 图 d) 上 海 非 本 地 人 的 签到 热度 图 


图 4.3 ”本 地 人 和 外 地 人 的 签到 热度 图 


11.2 ”位 置 画像 模型 


我 们 提出 的 位 置 画 像 模型 是 从 移动 数据 的 时 间 特 性 、 空 间 特性 和 位 置 知识 三 个 角度 提取 特征 ， 然 后 使 用 分 类 模型 (针对 性 
别 、 职 业 、 受 教育 程度 等 属性 ) 或 回归 模型 (针对 年 龄 属性 ) 进行 用 户 显 性 属性 的 预测 。 图 4.4 展 示 了 基于 签到 数据 的 位 置 画像 
模型 的 框架 图 ， 接 下 来 我 们 从 特征 提取 、 特 征 降 维和 模型 预测 三 个 步骤 进行 介绍 。 


抓 取 的 用 户 


画像 | 


抓 取 的 签到 


时 间 特 性 


抓 取 的 兴趣 
点 评论 


兴趣 点 


图 4.4 基于 签到 数据 的 位 置 画像 模型 的 框架 图 


特征 提取 


- 时 间 特 性 : 根据 移动 数据 的 时 间 蕉 信息 ， 我 们 把 一 天 划分 为 24 个 小 时 ， 并 且 区 分 工作 日 和 节假日 。 这 种 划分 在 很 大 程度 上 
能 够 区 分 不 同属 性 的 用 户 的 生活 方式 。 


空间 特性 : 如 图 4.3 所 示 ， 用 户 的 移动 数据 在 空间 上 不 是 均匀 分 布 的 。 对 于 一 个 用 户 而 言 ， 他 的 移动 范围 往往 集中 于 某 几 
个 区 域 ， 比 如 家 和 工作 的 地 方 。 此 外 ， 一 些 职业 领域 也 呈现 出 明显 的 区 域 化 特色 ， 比 如 金融 街 和 高 科技 产业 园区 。 因 此 ， 经 常 在 
这 种 具有 特色 的 区 域 出 现 的 人 往往 也 具有 明显 的 特征 。 为 了 捕获 用 户 移动 的 区 域 分 布 的 特征 ， 我 们 需要 对 城市 的 空间 进行 区 域 性 
划分 。 因 此 我 们 采用 基于 形态 学 的 城市 区 域 划 分 方法 1 而 非 基 于 网 格 的 均匀 划分 方法 。 这 是 因为 基于 形态 学 的 划分 方法 是 根据 城 
市 的 路 网 结构 来 划分 的 ， 这 种 划分 保留 了 各 个 区 域 的 拓扑 结构 和 语义 信息 ， 更 加 能 够 代表 移动 行为 的 空间 特征 。 图 4.54 和 图 4.5b 
分 别 展 示 了 北京 和 上 海 的 区 域 划分 结果 ， 其 中 不 同 的 区 域 使 用 的 是 不 同 的 颜色 标注 。 


a) 北京 b) 上 海 


图 4.5 ”城市 的 区 域 划 分 


位 置 知 识 : 位 置 知 识 包 括 了 类 别 特征 、 评 论 特征 和 关键 字 特 征 。 其 中 类 别 特征 描述 的 是 一 个 地 点 的 类 别 。 评 论 特征 是 在 
Yelp 或 大 众 点 评 等 网 站 上 对 某 个 地 点 的 评论 ， 比 如 一 个 餐馆 的 气氛 、 服 务 、 味 道 和 价格 等 因素 。 关 键 字 特征 是 针对 某 一 个 地 点 的 
关键 字 描 述 ， 比 如 “奢侈 ”或 “小 清新 ”。 如 图 4.6 所 示 ， 地 点 的 类 别 特征 往往 是 已 知 的 ， 比 如 签到 数据 的 兴趣 点 都 有 类 别 描 
述 。 为 了 得 到 评论 特征 ， 首 先 需要 把 数据 集中 的 地 点 和 点 评 网 站 上 的 地 点 进行 匹配 ， 把 点 评 网 上 针对 该 地 点 的 所 有 评论 作为 评论 
特征 ， 此 外 我 们 还 设计 了 分 类 模型 和 回归 模型 ， 根 据 已 经 匹配 上 的 评论 特征 来 填补 没有 被 匹配 上 评论 特征 的 地 点 。 为 了 得 到 关键 
字 特 征 ， 我 们 根据 社交 网 络 上 包含 该 地 点 的 信息 构建 了 一 个 关键 字 词 表 ， 然 后 用 词 表 中 最 合适 的 关键 词 去 标注 这 个 地 点 。 地 点 匹 
配 和 关键 字 词 表 构 建 的 具体 步骤 可 以 参照 参考 文献 [161] 。 


众 点 评 
的 兴趣 点 


| 
| 跨 域 兴 趣 点 位 置 知识 
合并 迁移 


兴趣 点 相 


图 4.6 位置 知识 的 提取 流程 


特征 降 维 


我 们 把 时 间 特 性 、 空 间 特性 和 位 置 知识 放 入 一 个 三 维 张 量 中 ， 用 张 量 分 解 的 办 法 进行 降 维 后 可 得 到 针对 用 户 的 更 精准 的 特征 
表示 。 张 量 分 解 的 模型 如 图 4.7 所 示 。 
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(类 别 ， 评 论 ， 关 键 词 特征 ) 
图 4.7 张 量 分 解 模 型 


如 图 4.7 所 示 ， 三 维 张 量 TE m^ 5 “的 三 个 维度 分 别 表 示 用 户 、 位 置 知 识 和 时 空 特性 ， 其 中 11 是 用 户 数 ，12 是 位 置 知 识 的 维 
度数 ，13 是 时 空 特性 的 维度 数 。 对 于 时 空 维度 ， 假 设 移动 数据 对 应 着 区 域 a 和 时 间 箱 B， 其 对 应 的 索引 为 qxNT+B， 其 中 NT 是 时 
间 箱 的 数目 。 对 于 位 置 知 识 维度 ， 首 先 分 别 进行 聚 类 得 到 NR 个 评论 聚 类 和 Nk 个 关键 字 聚 类 。 给 定 移动 数据 对 应 的 兴趣 点 类 别 
Q1、 评 论 聚 类 Q2 和 关键 字 聚 类 a3， 其 对 应 的 位 置 知 识 维度 的 索引 为 Q1xNRxNk+Q2xNk+Q3。 


接着 ， 我 们 使 用 Tucker 分 解 方法 由 对 张 量 进行 如 下 分 解 
T — S XuU XL XC (4. 1) 


Etchs e RUUxdL xdC a see aga, UER LER Ce 疏 灾 分 别 是 代表 用 户 、 位 置 及 时 空 的 低 维 因子 和 矩阵。 
模型 预测 


我 们 使 用 降 维 处 理 得 到 的 用 户 答 阵 J 作 为 用 户 的 特征 表示 ， 针 对 性 别 、 受 教育 程度 (大学生 或 非 大 学 生 ) 、 婚 姻 状 态 (8 
身 、 追 求 中 、 恋 爱 、 结 婚 ) 、 血 型 、 星 座 等 显 性 属性 使 用 分 类 模型 预测 ， 针 对 年 龄 使 用 回归 模型 进行 预测 。 


[1] J Yuan, Y Zheng, X Xie.Discoveting regions of different functions in a city using human mobility and pois [C] .In Proceedings of the 
18th ACM SIGKDD international conference on Knowledge discovery and data mining, ACM, 2012. 

[2] G Bergqvist, E G Larsson. The higher-order singular value decomposition: theory and an application [lecture notes] [J] .IEEE Signal 
Processing Magazine, 2010, 27 (3) : 151-154. 


42 隐 性 属性 预测 


不 同 于 年 龄 、 性 别 等 显 性 属性 ， 隐 性 属性 是 指 一 个 人 的 性 格 或 情绪 等 侧重 心理 过 程 的 稳定 特点 。 本 章 将 介绍 如 何 利用 移动 数 
据 进行 对 猎奇 心理 和 消费 冲动 心理 这 两 种 隐 性 属性 的 预测 。 


42.2 ”消费 冲动 心理 挖掘 


消费 冲动 心理 介绍 


消费 冲动 心理 是 消费 者 行为 学 和 市 场 营 销 中 经 常 研究 的 另 一 种 非常 重要 的 用 户 心理 特质 ， 其 刻画 的 是 用 户 在 受到 外 界 因素 的 
影响 时 ， 往 往 会 进行 事先 没有 计划 或 无 意识 的 购买 行为 。 其 实 消费 冲动 心理 在 人 类 生活 中 扮演 了 重要 的 角色 。 据 统计 在 超市 发 生 
的 购买 行为 中 ， 超 过 70% 的 购物 都 是 由 于 消费 冲动 心理 所 引起 的 [1]。 在 数据 挖掘 领域 广 为 流 传 的 啤酒 和 尿布 的 故事 其 实 也 形象 
地 诠释 了 消费 冲动 心理 对 购物 行为 产生 的 影响 : 用 户 原 本 并 没有 意愿 购买 啤酒 ， 在 购买 尿布 时 看 到 啤酒 的 瞬间 ， 由 于 消费 冲动 心 
理 的 作用 产生 了 购买 意愿 。 


数 十 年 来 ， 在 心理 学 和 社会 学 的 研究 中 ， 学 者 们 也 设计 了 各 种 各 样 的 度量 表 来 从 不 同 的 角度 测量 用 户 的 消费 冲动 心理 。 比 
如 ， 一 方面 芝加哥 大 学 的 普 里 . 拉 迪 卡 教授 自从 购买 成 本 和 收益 的 角度 直接 测量 了 消费 冲动 心理 ， 另 一 方面 肯塔基 大 学 的 史蒂芬 
怀特 塞 德 教授 等 人 设计 的 UPPS 度 量 表 D 可 以 测量 一 个 用 户 的 所 有 行为 的 冲动 程度 ， 从 而 可 以 被 用 来 进一步 测量 用 户 在 购物 行为 
方面 的 冲动 心理 。 类 似 于 猎奇 心理 度量 表 的 局 限 性 ， 度 量 表 在 消费 冲动 心理 中 也 存在 成 本 高 、 易 受 实验 者 效应 影响 ， 以 及 难以 被 
用 来 测量 大 规模 人 群 的 缺点 。 


在 大 数据 时 代 ， 移 动 数据 的 普遍 收集 在 很 大 程度 上 能 够 刻画 用 户 的 各 种 消费 行为 ， 比 如 在 餐厅 的 签到 数据 表明 了 用 户 就 餐 的 
消费 行为 ， 在 商场 连接 Wi-Fi 的 数据 殉 含 了 用 户 购物 的 消费 行为 ; 与 此 同时 ， 社 交 了 网 络 的 快速 发 展 也 逐渐 对 用 户 的 消费 行为 产生 
越 来 越 重 要 的 影响 ， 一 方面 社交 网 络 中 朋友 对 某 件 商品 的 讨论 或 口 口 相传 很 可 能 会 成 为 冲动 购物 的 刺激 因素 内 ， 另 一 方面 ， 越 来 
越 多 的 品牌 店 甚至 个 体 卖家 利用 社交 网 络 作 为 越 来 越 重 要 的 市 场 营 销 平台 。 因 此 ， 通 过 移动 数据 就 能 了 解 到 用 户 进行 了 什么 样 的 
消费 活动 ， 通 过 社交 网 络 就 能 了 解 到 用 户 受到 了 哪些 因素 的 刺激 ， 把 两 者 关联 起 来 ， 就 能 够 通过 数据 驱动 的 方式 来 计算 消费 冲动 
心理 ,使 得 消费 冲动 心理 的 测量 能 够 被 大 规模 的 采用 。 如 图 4.10 所 示 的 例子 ， 在 国家 主席 习近平 就 餐 庆 丰 包子 铺 的 事件 后 ， 社 交 
网 络 上 出 现 了 大 量 的 相关 信息 ， 而 随后 有 大 量 的 用 户 在 该 店铺 留 下 了 签到 数据 。 签 到 数据 和 社交 网 络 上 相关 信息 的 强 关 联 性 表明 
了 很 多 用 户 很 可 能 是 受到 社交 网 络 上 信息 的 刺激 才 去 消费 的 。 
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A410 ” 庆 丰 包子 铺 的 签到 数目 分 布 和 社交 网 络 上 相关 的 文章 数目 分 布 


移动 数据 和 社交 网 络 驱动 的 消费 冲动 模型 


类 似 于 猎奇 心理 模型 ,根据 用 户 移动 数据 中 的 地 点 类 型 ， 选 择 属于 消费 类 型 的 移动 行为 (比如 在 电影 院 的 签到 行为 或 在 餐馆 
的 Wi-Fi 连 接 行 为 ) 形 成 用 户 的 移动 消费 序列 x= (x1，x2，.…，XN) ， 其 中 N 表 示 移 动 数据 中 消费 的 次 数 ， 而 xE{o1，…，OM} 
表示 用 户 这 次 移动 中 所 面临 的 消费 地 点 的 选择 ， 其 中 地 点 选择 可 以 表示 为 具体 的 地 理 位 置 ， 或 者 地 点 的 类 别 ， 比 如 和 餐厅 或 购物 中 
心 。 

对 于 用 户 在 某 个 时 间 点 t 的 移动 消费 行为 ， 来 自 社交 网 络 的 刺激 信息 是 指 在 一 个 时 间 窗 口 [t-T，t) 内 ， 用 户 在 社交 网 络 上 
浏览 的 相关 信息 ， 其 中 T 是 一 个 用 来 控制 时 间 窗 口 大 小 的 参数 。 如 图 4.11a 所 示 ， 用 户 在 时 间 t3 面 临 三 个 消费 地 点 的 选择 (KFC 
Pizza Hut 和 McDonald”s) 。 与 此 同时 ， 在 [t3-T, t3) 这 段 时 间 内 用 户 在 社交 网 络 上 也 浏览 到 了 其 中 某 些 地 点 的 信息 ， 比 如 
KFC 在 社交 网 络 上 被 朋友 提 到 过 多 次 ， 而 社交 网 络 上 的 这 些 信息 就 形成 了 用 户 可 能 去 KFC 消 费 的 刺激 因素 。 
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图 4.11 用 户 的 移动 消费 序列 、 社 交 网 络 信息 ， 以 及 动态 选择 刺激 和 下 阵 DOS 


为 了 度量 社交 了 网络 对 消费 地 点 的 刺激 强度 ， 我 们 首先 会 计算 某 一 条 消息 是 否 在 讨论 某 个 地 点 。 给 定 消息 q， 将 其 分 词 之 后 表 
示 为 集合 Q， 将 地 点 p 的 名 字 分 词 之 后 表示 为 集合 P， 那 么 消息 中 是 否 讨论 某 个 地 点 可 以 用 如 下 的 相似 性 函数 来 计算 


—1QN P| 
Q| 


那么 对 于 地 点 p， 其 在 时 间 窗 口 [t-T, t) 内 收 到 来 自 社 交 网 络 的 刺激 强度 可 表示 为 各 条 消息 和 地 点 的 相似 性 之 和 


wor 2a Sim(g,p) 


Stimuli Intensity( p) = 5) Sa (4. 7) 


At=1 e 


Sim(q. p) (4. 6) 


其 中 ，Post_t 表 示 之 前 ^t 时 间 ， 用 户 在 社交 网 络 上 浏览 到 的 信息 。eXt (和 是非 负 实 数 ) 表示 衰减 因子 ， 也 就 是 时 间 越 近 的 
言 息 提供 的 刺激 强度 越 明显 。 


为 了 刻画 不 同时 刻 用 户 在 社交 网 络 中 接收 到 的 关于 各 个 地 点 选择 的 刺激 强度 的 差异 ， 我 们 定义 了 动态 选择 刺激 矩阵， 具体 如 
下 。 


XEM A (动态 选择 刺激 答 阵 DOS) DOS 是 一 个 NXM (移动 数据 中 消费 的 次 数 X 消 费 位 置 选 择 的 数目 ) 8948 T, ABC 65 
每 个 元 素 都 是 一 个 在 1 到 M 之 间 的 整数 值 。 类 似 于 猎奇 模型 ， 在 用 户 的 每 一 次 移动 消费 中 ， 都 面临 着 M 种 选择 。 根 据 公 式 
(4.7) ， 把 社交 网 络 上 的 信息 对 这 些 不 同 选择 的 刺激 强度 进行 排序 就 形成 了 一 种 偏 序 关 系 。 因 此 ， 我 们 使 用 DOS 来 表示 在 每 次 
移动 消费 中 不 同位 置 选 择 的 这 种 偏 序 关 系 ， 其 中 这 个 矩阵 的 第 i 行 表示 用 户 在 第 i 次 移动 消费 中 ， 这 M 个 位 置 选择 受到 的 刺激 程度 
的 顺序 。 如 图 4.11b 所 示 ，o3 (McDonald’ s) >ol (KFC) >o, (Pizza Hut). 表明 用 户 在 社交 网 络 看 到 McDonals”s 的 信息 最 多 ， 而 


Pizza Hut 的 信息 最 少 。 


为 了 在 模型 中 量化 消费 冲动 心理 ， 我 们 定义 了 消费 冲动 状态 (CIL) 和 消费 冲动 心理 特质 (CIA) ， 具体 如 下 。 


定义 5 (消费 冲动 状态 CIL) ”消费 冲动 状态 z€ {1，2，…， 区 } 是 一 个 整数 ， 其 中 较 大 的 值 表示 用 户 具有 较 强 的 购物 冲动 ， 
容易 受到 外 界 刺激 的 影响 ， 反 之 亦 然 。 在 用 户 的 移动 消费 序列 中 ， 每 一 次 移动 消费 都 对 应 着 一 个 特定 的 消费 冲动 状态 。 


定义 6 (消费 冲动 心理 特质 CIA) ”消费 冲动 心理 特质 是 一 个 范围 在 [1，K] 的 实数 值 ， 表 示 的 是 多 项 式 分 布 0={01， 


…，0k} 的 均值 ， 其 中 表示 的 是 拥有 消费 冲动 状态 k 的 概率 。 可 以 看 到 ， 消 费 冲动 状态 刻画 的 是 用 户 在 菜 一 次 具体 移动 消费 中 的 
冲动 意愿 ， 而 消费 冲动 心理 特质 是 用 户 状 态 分 布 的 一 种 特征 ， 反 映 的 是 用 户 整 体 上 的 消费 冲动 意愿 。 


在 消费 冲动 模型 中 ， 当 用 户 的 冲动 状态 处 于 较 高 的 值 时 ， 用 户 更 容易 被 社交 网 络 上 的 信息 所 刺激 ， 选 择 一 个 刺激 信息 较 强 的 
位 置 去 消费 ， 而 忽略 掉 自己 本 身 对 这 些 地 点 的 喜爱 程度 ; 当 用 户 的 冲动 状态 处 于 较 低 的 值 时 ， 用 户 处 于 较 理性 的 状态 ， 此 时 用 户 
更 偏向 于 根据 自身 的 喜好 选择 消费 地 点 。 基 于 此 ， 模 型 采用 如 下 条 件 概率 来 表达 这 种 关联 


TG oTi szi » DOS ;,. ) 
P(X, = glenn 0) = SO (4. 8) 
2 各 9 之 ; »DOS,..) 


rco 


K—z. z.—1 
— 3 La 
f(x 9 Ui] 9 <j DOS ) = PE ao? DOS |. 


(4. 9) 


其 中 $ 表 示 用 户 自身 对 不 同 消费 位 置 的 喜好 程度 。 


消费 冲动 模型 的 图 模型 生成 过 程 类 似 于 猎奇 心理 模型 的 生成 过 程 ， 除 了 其 采样 依赖 于 公式 (4.8) 而 非 公 式 (43) . 8888 
考 文献 [149] ， 采 用 Gibbs 采 样 可 以 得 到 消费 冲动 分 布 6 和 效用 分 布 P， 而 用 户 的 消费 冲动 心理 特质 被 表示 为 分 布 9 的 均值 。 


类 似 于 猎奇 心理 模型 ， 消 费 冲 动 模型 也 可 以 被 用 来 预测 用 户 在 消费 冲动 状态 下 的 下 一 次 移动 消费 的 位 置 选择 ， 预 测 的 公式 如 
下 


P(X Ne = xr|xw 9， 之 ; ,路 ,0) 


f Gc xw 5k» DOS (nx) (4. 10) 
-一 > 0, id F— ncmo RU CN 
k=] ii (£, £y sk DOS ix.) 


rco 
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第 ?5 章 = 个 性 化 兴趣 地 点 推荐 


随 着 互联 网 技术 的 迅速 发 展 ， 大 量 的 信息 呈现 在 人 们 面前 ,满足 了 人 们 在 信息 时 代 对 信息 的 需求 。 然 而 ， 由 此 也 带 来 了 信息 
量 的 大 幅 增长 。 用 户 在 面 对 大 量 信息 时 很 难 从 中 获得 对 自己 真正 有 价值 的 那 部 分 信息 ， 因 此 信息 时 代 下 的 信息 使 用 效率 反而 降低 
了 。 比 如 说 ，Netflix 上 有 数 万 部 电影 ， 亚 马 示 上 有 数 特 万 本 图 书 ， 但 人 们 能 看 的 电影 、 能 阅读 的 图 书 只 能 是 其 中 很 少 的 一 部 
分 。 要 让 人 们 从 如 此 多 的 信息 中 找到 自己 感 兴趣 的 部 分 是 异常 困难 的 ， 因 为 人 们 即使 穷尽 有 生 之 年 也 无 法 完成 对 全 部 这 些 信息 的 
浏览 。 搜 索 算 法 是 解决 信息 过 载 的 一 种 方法 ， 可 以 帮助 人 们 找到 他 们 自己 想 要 的 那 部 分 信息 。 但 是 有 时 候 用 户 甚至 都 不 知道 自己 
的 兴趣 是 什么 ? 或 者 难以 用 搜索 关键 词 来 描述 自己 的 意图 。 个 性 化 推荐 被 认为 是 当前 解决 这 类 信息 过 载 问 题 的 最 有 效 工具 之 一 。 
从 根本 上 说 ， 推 荐 问题 就 是 帮助 用 户 来 评价 或 排序 他 们 从 未 见 过 的 物品 ， 是 一 个 提升 用 户 认 知 的 过 程 。 


同样 ， 移 动 互 联网 的 发 展 使 得 人 们 更 加 容易 浏览 每 个 城市 成 干 上 万 的 包括 酒店 、 和 餐馆 、 电 影院 等 的 兴趣 地 点 。 针 对 兴趣 地 点 
的 个 性 化 推荐 是 帮助 人 们 了 解 、 探 索 、 熟 悉 周遭 环境 的 一 种 重要 过 程 ， 对 于 移动 广告 、 地 点 影响 力 提升 等 方面 有 着 重要 的 应 用 。 
过 往 这 些 兴 趣 地 点 信息 可 能 只 是 以 黄页 的 形式 存储 在 互联 网 上 ， 但 缺乏 用 户 和 兴趣 地 点 之 间 的 交互 数据 ， 个 性 化 地 点 推荐 技术 的 
发 展 受到 了 限制 。 随 着 Web 2.0 技 术 的 成 熟 和 普及 ， 用 户 从 被 动 的 信息 浏览 者 变 成 了 信息 的 生产 者 ， 产 生 了 大 量 的 与 这 些 兴 趣 地 
点 相 天 的 内 容 信息 ， 比 如 入 们 在 大 众 点 评 网 或 美 团 网 上 对 餐馆 、 电 影院 的 评价 信息 ， 艺 龙 或 携程 网 上 对 酒店 的 评价 信息 ， 街 旁 网 
上 分 享 的 签到 信息 及 攻略 信息 ， 等 等 。 这 些 信息 对 帮助 人 们 判断 这 些 兴 趣 地 点 的 差异 性 具有 巨大 帮助 。 不 过 ， 一 方面 ， 由 于 这 些 
内 容 信息 都 是 由 用 户 产 生 的 ， 虽 然 数据 量 大 ， 但 是 噪声 也 比较 多 ， 甚 至 还 存在 虚假 的 内 容 信息 。 比 如 ， 有 些 店家 可 能 会 给 相互 竞 
争 的 饭店 或 酒店 进行 恶意 评价 。 另 外 一 方面 ， 这 些 数据 虽然 数量 巨大 ， 却 主要 体现 在 用 户 基数 上 。 由 于 在 产生 内 容 数 据 上 具有 自 
主 性 ， 因 此 每 个 用 户 所 产生 的 内 容 数据 是 相对 较 少 的 。 因 而 ， 从 这 些 内 容 数据 中 学 习 用 户 的 偏好 ， 不 仅 需要 克服 数据 的 稀疏 性 ， 
而 且 还 要 尽 可 能 地 消除 数据 中 的 大 量 噪声 。 本 章 将 主要 介绍 个 性 化 兴趣 地 点 推荐 的 相关 技术 ， 特 别 强 调 如 何 利用 丰富 的 有 关 用 户 
或 兴趣 地 点 的 内 容 信息 来 应 对 数据 稀疏 性 的 问题 并 减少 数据 中 的 噪声 。 


个 性 化 推荐 技术 从 20 世 纪 90 年 代 中 期 开始 出 现 ， 亚 马 逊 的 基于 项 目的 协同 过 滤 算法 中 是 个 性 化 推荐 发 展 的 一 个 重要 阶段 。 

由 于 给 亚马逊 增加 了 将 近 25% 的 访问 量 ， 由 此 也 掀起 了 个 性 化 推荐 的 研究 热潮 。Netflix 在 2006 年 发 起 的 百 万 美元 大 奖 赛 更 是 引 
起 了 科研 工作 者 的 关注 ， 不 仅 是 因为 奖金 高 达 百 万 美元 ， 更 是 因为 比赛 基于 的 电影 评分 记录 高 达 1 亿 多 条 的 数量 。 很 多 研究 新 的 
高 效 而 精确 的 个 性 化 推荐 也 被 提出 ， 其 中 比较 经 典 的 模型 包括 SVD+ +、TimeSVD。 这 些 算法 的 高 效 性 得 益 于 针对 观测 值 的 最 小 
二 乘 近 似 的 优化 算法 。 个 性 化 推荐 的 方法 已 经 日 臻 完善， 主流 的 可 以 分 类 为 基于 内 容 的 过 滤 和 基于 协同 过 滤 的 推荐 方法 。 基 于 内 
容 的 过 滤 是 推荐 内 容 上 相似 的 物品 。 以 电影 为 例 ， 该 方法 分 析 电 影 与 用 户 所 看 过 电影 的 共同 点 ， 并 推荐 共同 点 较 高 的 那些 电影 。 
而 协同 过 滤 则 是 基于 用 户 行为 的 相似 性 来 进行 推荐 的 。 同 样 以 电影 为 例 ， 该 方法 是 基于 相似 口味 的 用 户 们 看 过 的 电影 历史 来 推荐 
影 的 。 根 据 参考 文献 [1] 的 分 类 ， 协 同 过 滤 又 可 以 进一步 分 为 基于 邻 域 的 方法 和 基于 模型 的 方法 。 基 于 模型 的 框架 囊括 了 主 
题 模型 、 隐 向 量 模型 等 。 由 于 和 传统 机 器 学 习 模 型 的 相似 性 ， 这 些 方法 具备 了 良好 的 理论 基础 向 。 加 上 这 些 方法 在 推荐 性 能 上 的 
优越 性 ， 因 此 受到 了 众多 研究 者 的 青睐 。 不 过 这 些 方法 都 面临 着 稀疏 性 和 冷 启 动 的 重要 挑战 。 因 此 ， 一 系列 的 研究 工作 围绕 如 何 
解决 冷 启动 和 稀 玻 性 的 问题 而 展开 ， 比 如 微软 研究 员 大 卫 斯 特 恩 等 人 提出 的 MatchBox3， 前 雅虎 研究 员 迪 帕克 : 阿 加 瓦尔 提出 
的 RLFM 向 ， 谷 歌 研 究 员 斯 提 芬 . 伦 多 提出 的 LibF MP， 以 及 我 们 提出 的 ICCFI9。 


在 这 个 分 类 框架 之 下 ， 个 性 化 兴趣 地 点 推荐 的 研究 也 涉及 了 分 类 中 的 各 个 方法 。 不 过 与 传统 的 方法 不 同 的 是 ， 个 性 化 的 地 点 
推荐 特别 需要 考虑 地 点 的 物理 位 置 ， 因 为 地 点 之 间 的 物理 距离 关系 可 以 帮助 推荐 系统 了 解 人 们 隐藏 在 数据 背后 的 正 负 偏好 。 而 且 
和 传统 评分 矩阵 不 同 ， 用 户 对 地 点 的 访问 和 矩阵 无 法 体现 出 人 们 的 负 偏好 ， 即 无 法 从 这 个 矩阵 中 知道 人 们 不 喜欢 什么 样 的 兴趣 地 
点 。 因 而 ， 个 性 化 地 点 推荐 的 问题 是 一 个 典型 的 单 类 协同 过 滤 问 题 [/]I8。 围 绕 这 些 主题 ， 基 于 用 户 地 点 的 访问 矩阵 ， 先 来 介绍 个 
性 化 地 点 推荐 的 常用 技术 ， 然 后 介绍 该 个 性 化 地 点 推荐 的 最 新 研究 进展 。 关 于 同时 利用 用 户 地 点 访问 矩阵 和 用 户 地 点 评分 矩阵 的 


方法 本 章 将 不 做 介绍 ， 具 体 可 以 参照 参考 文献 [149] 。 


假设 移动 数据 涵盖 了 M 个 用 户 对 N 个 地 点 的 访问 ， 对 应 的 访问 憩 阵 为 CE RMxN。 和 矩阵 中 的 每 个 元 素 cu， 访 示 用 户 u 对 地 点 i 
的 访问 次 数 。 访 问 次 数 越 大 ， 用 户 喜 欢 该 地 点 的 可 能 性 就 越 高 。 和 矩 阵 的 第 u 行 cu 表示 用 户 u 的 访问 地 点 向 量 ， 对 于 用 户 没有 访问 
的 地 点 ， 其 值 为 0。 珑 阵 的 第 i 列 c 款 示 地 点 的 访问 用 户 列 表 ， 未 访问 过 该 地 点 的 用 户 对 应 的 位 置 元 素 为 0。 下 面 将 基于 这 个 矩阵 
来 介绍 地 点 推荐 的 常用 技术 。 
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5.1. 协同 过 滤 


根据 上 面 的 分 类 ， 个 性 化 推荐 技术 分 为 基于 内 容 的 过 滤 和 协同 过 滤 。 本 节 主 要 介绍 协同 过 滤 。 协 同 过 滤 是 基于 用 户 行为 的 相 
似 性 来 进行 推荐 。 根 据 相 似 性 的 显 隐 性 刻画 ， 协 同 过 滤 又 分 为 基于 邻 域 的 方法 和 基于 模型 的 方法 。 基 于 邻 域 的 方法 是 显 性 定义 用 
户 之 间或 物品 之 间 的 相似 度 ， 而 基于 模型 的 方法 是 隐 性 定义 用 户 之 间或 物品 之 间 的 相似 度 。 


5.1.1 基于 邻 域 的 方法 


基于 邻 域 的 方法 显 性 定义 用 户 之 间或 物品 之 间 的 相似 度 。 通 过 显 性 定义 用 户 相 似 度 的 方法 称 为 基于 用 户 的 协同 过 滤 ， 而 通过 
显 性 定义 物品 相似 度 的 方法 称 为 基于 物品 的 协同 过 滤 。 因 此 基于 邻 域 的 方法 的 核心 问题 就 是 如 何 定义 相似 度 。 由 于 基于 用 户 的 协 
同 过 滤 与 基于 物品 的 协同 过 滤 的 相似 性 ， 本 章 侧重 以 用 户 为 中 心 ， 来 介绍 基于 用 户 的 协同 过 滤 。 考 虑 给 定 任意 的 两 个 用 户 a 和 
b， 他 们 的 访问 地 点 历史 分 别 用 ca 和 cb 来 表示 。 由 于 是 用 向 量 来 表示 这 两 个 用 户 的， 那么 他 们 之 间 的 相似 度 就 可 以 利用 余弦 夹 角 
等 度量 来 表示 。 特 别 地 ， 余 弦 夹 角 表 示 如 下 


T 
Ca C b 


sim(a,b) = cosl sG) = re fe, (5. l1) 
a b 


不 过 这 个 向 量 可 能 经 常 不 能 直接 被 使 用 ， 需 要 做 一 些 预 处 理 ， 比 如 去 中 心 化 ， 归 一 化 地 点 的 重要 性 ， 等 等 。 以 去 中 心 化 为 


例 ， 就 是 每 个 用 户 访问 次 数 向 量 减 去 该 用 户 的 平均 访问 次 数 ， 特 别 地 ， 假 设 用 户 a 的 去 中 心 化 的 向 量 为 5 ， 为 了 不 对 未 访问 地 点 
进行 去 中 心 化 处 理 ， 原 来 访问 次 数 为 0 的 地 点 的 访问 次 数 仍然 为 0， 因 而 ， 可 利用 下 面 的 公式 进行 去 中 心 化 
(5.2) 


CL) =c,Ch) —c, 


趣 地 点 ， 可 以 表示 为 la=8 (ca>0) 。 通 过 ca (la) ， 实 现 只 取出 其 中 访问 


M 


其 中 la 是 一 个 0/1 向 量 ， 表 示 用 户 a 访 问 过 相应 的 兴 
“表示 用 户 a 的 平均 访问 次 数 。 这 种 情况 下 的 余弦 相似 性 实际 上 是 皮尔 逊 相关 性 度量 。 以 地 


次 数 为 非 0 的 地 点 进行 去 中 心 化 。” í 
点 的 重要 性 进行 归 一 化 的 方法 为 例 ， 可 以 进行 类 似 于 TF-IDF 的 变换 。 逆 向 文档 频率 (Inverse Document Frequency, IDF) 是 


地 点 的 重要 性 度量 ， 其 定义 如 下 


"XN N - 
idf; = log (Enn (5:3) 


然后 把 这 个 量 作用 到 ca 中 的 各 个 地 点 上 ， 即 5 一 diagCGdh，…，idfy))X & ,来 实现 地 点 重要 性 的 归 一 化 。 其 背后 的 动机 是 两 个 


用 户 访问 同一 个 流行 度 高 的 地 点 的 概率 是 比较 高 的 ， 因 而 他 们 的 这 种 共 现 对 于 描述 他 们 之 间 的 相似 性 作用 较 小 。 第 三 种 预 处 理 方 
法 是 直接 利用 la。 此 时 ， 两 个 用 户 之 间 的 相似 性 与 他 们 的 共 现 地 点 的 数目 是 相关 的 。 常 用 的 相似 度 函 数 包括 杰 卡 德 相似 度 及 其 各 
相似 度 为 例 来 看 ， 假 设 用 户 A 和 用 户 B 去 过 的 地 点 集合 分 别 为 La 和 和 Lb， 那 么 此 时 他 们 之 间 的 相似 度 定义 如 下 


LI, 
5 T (A) 

T | I, 2 — 45 
根据 参考 文献 [61] 在 移动 位 置 数据 上 的 对 比 发 现 ， 预 处 理会 在 很 大 程度 上 提升 推荐 的 性 能 ， 第 三 种 预 处 理 的 方法 在 个 性 
化 地 点 推荐 上 也 会 带 来 预想 不 到 的 效果 。 其 中 ， 推 荐 的 性 能 一 般 是 先 按照 用 户 对 地 点 的 预测 偏好 的 高 低 进 行 排序 ， 再 验证 对 于 排 
在 前 列 的 地 点 有 多 少 比例 是 满足 用 户 偏好 的 ， 具 体 详情 可 以 参见 5.5 节 。 因 此 ， 用 户 对 于 地 点 的 预测 偏好 就 是 推荐 过 程 的 一 个 重 


类 变种 。 以 杰 卡 德 


| IL, AL 
Si) ae eet Ls 
sim(a h) Fa U P | LH. 


Bobo 


要 的 环节 。 一 般 来 说 ， 给 定 用 户 之 间 的 相似 度 之 后 ， 有 三 种 策略 可 以 实现 用 户 对 地 点 的 偏好 预测 


-— l : 
po > C p, j 


Va,j 
| N, bEN , 
r= 1 E R 
foi 二 一 一 一 一 b» sim(a ,5)c,.; (5.9) 
2 sim(a D)bEN, 


bc Na 


l 2 sim(a 5b) Co; — Tp) 


Va.j 一 F, E : 
> sim(a DEN, 


DEN, 

其 中 Na 表示 和 用 户 a 最 相似 的 |Na 个 用 户 的 集合 。 在 个 性 化 地 点 推荐 中 ， 常 用 的 方法 是 第 二 种 。 主 要 的 原因 在 于 ， 正 如 在 2.1 
节 所 介绍 过 的 ， 用 户 对 地 点 的 访问 次 数 的 频率 分 布 是 满足 寡 律 分 布 的 ("1 站， 即 大 部 分 的 访问 次 数 是 很 少 的 ， 因 而 其 均值 ”很 接近 
这 些 在 长 尾 的 大 部 分 地 点 的 访问 次 数 。 如 果 采 用 第 三 种 方法 的 话 ， 很 容易 就 会 受到 那些 用 户 经 常 访问 的 地 点 的 影响 。 特 别 地 ， 家 


和 工作 地 点 一 般 是 用 户 最 经 常 访问 的 地 点 ， 那 么 可 能 会 推荐 很 多 类 似 于 用 户 的 家 或 工作 场地 的 地 点 。 这 种 推荐 几乎 是 没有 意义 
的 。 


[1] D Lian, X Xie, et al.Cepr: A collaborative exploration and periodically returning model for location prediction [J] .ACM Transaction 
Intelligent Systems Technology, 2015, 6 (1) : 8: 1-8: 27. 


[2] H Gao, J Tang, H Liu.Exploring social-historical ties on location-based social networks [C] .In Proceedings of ICWSM’ 12, 2012. 


5.1.2 ”基于 社交 相似 性 的 协同 过 滤 


协同 过 滤 是 根据 用 户 或 地 点 的 相似 性 来 进行 推荐 的 ， 其 天 键 便 是 衡量 用 户 或 地 点 之 间 的 相似 性 。 以 用 户 相似 性 来 说 ， 已 经 介 
绍 了 上 面 的 一 些 方法 。 这 一 部 分 的 介绍 是 基于 社交 网 络 来 计算 用 户 的 相似 性 。 其 中 最 常用 的 是 计算 共同 朋友 的 数目 及 其 诸如 杰 卡 
德 系数 等 变种 相关 性 。 背 后 的 直观 含义 是 ， 如 果 两 个 用 户 拥有 的 共同 朋友 数 越 多 ， 那 么 他 们 的 相似 性 就 越 高 。 此 外 ， 还 有 和 最 短 
路 径 或 随机 游 走 相关 的 指标 来 衡量 用 户 在 社交 网 络 上 的 相似 性 。 下 面 给 出 具有 代表 性 的 几 个 指标 中 


sim(a,b)= |T) f) PX» | 


sim(a,b)= »;f'* | paths | (5. 6) 


g=] 


sim(a.b)=— Hy 


BHT (a) 表示 用 户 a 的 朋友 集合 ，”'*% 表 示 从 用 户 a 到 用 户 b 的 路 径 长 度 为 4 的 路 径 集合 ，Ha，b 表 示 在 社交 网 络 图 中 从 用 
户 a 节点 沿 着 图 中 的 边 随机 游 走 到 用 户 b 节 点 的 期 望 时 间 。 给 定 这 些 用 户 相 似 性 之 后 ， 就 可 以 通过 上 述 偏 好 预测 方法 来 估计 用 户 
对 地 点 的 偏好 了 。 


[1] D Liben-Nowell, J Kleinberg.The link-prediction problem for social networks [J] .Journal of the American society for information 


science and technology, 2007, 58 (7) : 1019-1031. 


5.1.3 ”基于 模型 的 方法 


与 显 性 计算 相似 性 模型 有 所 不 同 ， 基 于 模型 的 方法 并 不 会 显 式 地 计算 相似 性 。 该 类 相当 一 部 分 的 方法 主要 在 于 将 用 户 和 物品 
映射 到 低 纬度 的 隐 性 空间 中 ， 使 得 用 户 和 地 点 在 该 隐 性 空间 中 的 内 积 表示 用 户 对 地 点 的 偏好 。 由 于 所 有 用 户 (所 有 的 地 点 ) 都 被 
映射 到 了 隐 性 空间 中 ， 因 此 用 户 之 间 的 相似 性 和 物品 之 间 的 相似 性 就 被 表示 出 来 了 。 这 类 方法 的 主要 缺点 是 解释 性 ， 因 为 隐 性 空 
间 中 的 每 个 维度 的 含义 是 无 法 准确 定义 的 。 然 而 ， 由 于 它 优化 学 习 的 目标 与 推荐 性 能 的 评价 可 以 是 一 致 的 ， 所 以 可 以 取得 比较 高 
的 推荐 性 能 ， 因 而 得 到 了 很 多 的 关注 和 研究 。 下 面 主 要 以 降 维 技 术 中 的 矩阵 分 解 来 进行 介绍 。 


和 矩阵 分 解 


给 定 用 户 地 点 的 访问 频数 矩阵 C， 可 以 通过 奇异 值 分 解 的 方法 进行 矩阵 的 分 解 。 通 过 前 "< "个 奇异 值 对 应 的 奇异 向 量 


来 张 成 低 纬 度 隐 性 空间 。 根 据 参 考 文 献 [117] 的 分 析 ， 这 个 奇异 值 分 解 可 以 通过 下 面 的 优化 问题 来 实现 


min|lC —PQ"|z.s.. PP = A #Q7Q =I (5.7) 
P.Q 


其 中 PeRMxKf9QeRNxK 分 别 是 用 户 的 隐 向 量 和 地 点 的 隐 向 量 。 它 们 中 的 每 一 行 分 别 对 应 了 它们 在 隐 性 空间 中 的 表示 。 
|: li REREAD DUE SHEE (Frobenius Norm) 的 平方 ， 即 为 矩阵 中 每 个 元 素 的 平方 和 。 通 过 对 P 和 Q 求 导 分 析 可 以 知 
道 ，Q 的 每 列 刚好 对 应 了 和 矩阵 C 的 前 K 个 右 奇异 向 量 。 若 假设 C 的 前 K 大 的 奇异 值 在 对 角 阵 A 中 ， 那 么 Q 满 足 QA=CICQ。 和 矩阵 P 可 
以 通过 P=CQ 来 进行 计算 。 


然而 ， 用 户 一 般 只 会 访问 很 少 的 兴趣 地 点 ， 这 个 访问 矩阵 中 存在 大 量 的 0 值 ， 但 用 户 对 地 点 的 0 次 访问 并 不 代表 用 户 的 负 偏 
好 ， 可 能 只 是 用 户 还 没有 到 过 这 个 地 方 。 所 以 这 个 0 次 的 访问 对 应 着 缺失 情形 。 把 它 作为 0 值 意味 着 把 它 作 为 非 缺 失 的 情况 来 处 
理 ， 这 会 存在 一 定 的 问题 。 根 据 之 前 在 Netflix 上 的 对 比 可 以 发 现 ， 这 种 处 理 方法 不 是 一 个 好 的 选择 。 另 外 ， 对 和 矩阵 进行 奇异 值 
分 解 的 复杂 度 是 很 高 的 ， 特 别 是 在 有 大 量 用 户 和 大 量 地 点 的 情况 下 。 因 此 ， 针 对 观测 值 的 优化 算法 便 被 提出 ， 并 被 广泛 地 应 用 于 
Netflix 比 赛 中 ， 而 且 取 得 了 意 想 不 到 的 效果 。 这 个 方法 是 通过 最 小 化 下 面 的 加 权 平 方 的 误差 来 实现 的 


min|I(C (€ — PQ") | (5. 8) 
P.Q 


Hr "o" 是 Hadamard 积 操作 符 ， 即 相同 大 小 矩阵 的 对 应 元 素 两 两 之 间 的 乘法 。| 是 一 个 二 值 的 加 权 和 矩阵 ， 里 面 的 每 个 元 
常会 给 这 个 目标 函数 添加 正则 化 项 ， 使 得 对 通过 无 限 增加 矩阵 的 复杂 度 (这 里 可 用 范 数 衡量 ) 来 减 小 目标 损失 的 做 法 进行 惩罚 ， 
也 就 是 通过 下 面 的 最 小 化 进行 参数 的 优化 学 习 


minC| IO (C — PQ") Iz + yP + ale» (5. 9) 


WTA RAAT, TEISIECERS— TSIM, ARAE — TRENOBM, IBIJIASEECKESTH 
STOMA, ETARLAR. SEERHUSEGIIXPET EE, STALWART ME. KN ABRMARBIA 
代 优 化 (Alternating Least Square) 算法 。 这 个 算法 ， 由 于 和 后 面 介绍 的 算法 具有 一 定 的 相关 性 ， 因 此 将 会 在 后 面 的 章节 

(5.3.4 节 和 5.4.1 节 ) 进行 介绍 。 


泊 松 分 解 

正如 在 2.1 节 中 所 介绍 的 ， 用 户 地 点 访问 次 数 是 满足 窜 律 分 布 的 ， 即 一 个 用 户 对 大 部 分 地 点 的 访问 次 数 是 很 少 的 ， 但 对 很 小 
一 部 分 地 点 的 访问 次 数 很 多 。 这 种 次 数 分 布 的 第 二 点 特性 和 泊 松 分 布 是 较为 一 致 的 。 但 泊 松 分 布 和 叭 律 分 布 是 很 不 相同 的 两 个 分 
布 ， 特 别 是 窜 律 分 布 有 长 尾部 分 ， 而 泊 松 分 布 式 的 次 数 分 布 豪 减 是 很 快 的 ， 没 有 长 尾部 分 。 不 过 ， 由 于 泊 松 分 布 的 漂亮 性 质 ， 被 
用 在 了 泊 松 分 解 之 中 。 泊 松 分 解 也 被 广泛 应 用 于 处 理 次 数 和 矩阵 的 情形 之 中 ， 它 是 由 加 州 大 学 伯克利 分 校 的 约翰 ' 凯 尼 在 主题 模型 


LDA 提 出 的 后 一 年 提出 的 [1]， 本 质 上 和 主题 模型 非常 类 似 。 对 泊 松 分 解 进行 分 析 可 以 发 现 ， 非 负 和 矩阵 分 解 是 对 应 了 经 验 统计 的 情 
形 ， 即 不 合 隐 向 量 的 先 验 分 布 情形 。 特 别 地 ， 地 点 的 访问 次 数 满足 泊 松 分 布 ， 即 


Cui ~ Poisson(A,.; = Pudi) (5. 10) 


利用 这 个 概率 分 布 ， 生 成 次 数 和 矩阵 的 负 对 数 似 然 函 数 ， 即 可 得 到 


2 m Cai LOZ pig: + piq: zu logc,.; | (5. 11) 


u.l 


HEESEUEHTGEA Y TBÉUESSOACFO, BimgsemEWsrEdEfABUAgzs, BDP20, Q20. KIERA Ap 
KEFARET Dea P ， 可 以 发 现 它们 只 相差 一 个 常数 项 。 因 此 ， 经 验 统计 下 的 泊 松 分 解 和 非 负 和 矩阵 
分 解 是 一 样 。 因 而 ， 泊 松 分 解 的 参数 学 习 方 法 也 是 采用 非 负 和 矩阵 分 解 中 的 乘法 更 新 规则 来 完成 的 ， 即 


> qin nil Paq: 
bas = bas MR — 
> qis 
») Pu. fC uil Pa i 
di. f Em di. f : — 
D Pus 


Sint, AEMET R (Jensen) 不 等 式 得 到 的 上 界 来 实现 的 。 因 此 每 步 的 更 
新 都 能 使 得 目标 函数 是 非 递 增 的 ， 即 目标 冰 数 能 够 在 有 限时 间 内 收敛 。 另 外 ， 乘 法 规则 的 好 处 在 于 能 够 保 号 ， 即 ， 如 果 乘 法 更 新 
的 初始 参数 均 为 非 负 且 不 全 为 零 ， 那 么 乘法 更 新 算法 就 能 使 得 后 续 更 新 的 参数 都 是 非 负 的 。 不 过 需要 注意 的 是 ， 乘 法 更 新 规则 中 
有 可 能 存在 分 子 分 母 同 为 0 的 情况 ， 因 此 在 实现 的 时 候 需 要 格外 注意 这 种 情况 。 因 此 ， 更 常用 的 方法 是 基于 贝 叶 斯 统计 的 方法 ， 
正如 在 约翰 - 凯 尼 的 GaP 算 法 中 指出 的 那样 ， 假 设 用 户 和 地 点 的 每 个 维度 的 隐 向 量 都 是 独立 地 来 自 伽 马 分 布 的 。 这 种 先 验 分 布 起 
到 的 作用 实际 上 是 给 分 子 和 分 母 分 别 加 一 个 伽 马 分 布 的 参数 ， 从 而 也 能 避免 之 前 提 到 的 除 以 0 的 情况 。 这 种 贝 叶 斯 统计 下 的 泊 松 
分 解 方法 已 经 被 用 于 站 点 推荐 B]、 地 点 推荐 和 内、 文章 推荐 P 等 应 用 之 中 。 而 在 文章 推荐 的 算法 中 ， 作 者 假设 代 马 分 布 的 速率 参数 

(也 称 逆 尺度 ) 也 是 来 自 伽 马 分 布 ， 起 到 控制 表示 范围 平均 大 小 的 作用 ， 即 限制 其 均值 和 方差 ， 从 而 该 模型 是 一 个 层次 性 的 泊 松 
分 解 模型 。 由 于 其 对 方差 的 建 模 ， 这 种 层次 性 的 模型 可 以 用 于 刻画 用 户 和 地 点 的 多 样 性 。 


加 权 和 矩阵 分 解 


泊 松 分 解 可 用 于 近似 刻画 访问 次 数 的 分 布 。 然 而 ， 在 目标 函数 中 ， 观 测 的 访问 次 数 和 估计 值 是 乘积 关系 ， 虽 然 可 以 提升 计算 
效率 ， 但 访问 次 数 为 0 的 项 没有 被 利用 起 来 。 前 面 提 到 过 ， 用 户 对 地 点 的 访问 表示 了 对 地 点 的 正 偏好 ， 其 访问 次 数 只 代表 了 正 偏 
好 的 程度 或 置信 度 。 因 而 ， 只 利用 和 矩阵 中 的 非 零 元 素 ， 相 当 于 只 利用 了 正 偏好 的 数据 ， 所 以 应 该 不 是 最 优 的 。 针 对 这 种 单 类 协同 
过 滤 问题 [all/]， 目 前 主要 有 两 种 算法 。 第 一 种 是 加 权 和 矩阵 分 解 ， 即 分 别 为 访问 地 点 和 未 访问 地 点 赋予 不 同 的 权重 ， 表 示 不 同 的 置 
舍 程 度 。 这 种 加 权 和 矩阵 分 解 中 有 两 类 重要 算法 ， 第 一 类 是 为 每 个 用 户 随机 采样 一 些 负 偏好 的 地 点 并 赋 给 它们 比 正 样 本 更 小 的 权 
重 ; 第 二 类 是 把 所 有 的 未 去 过 的 地 点 都 作为 负 样 本 ， 其 权重 也 需要 显著 小 于 正 样本 的 地 点 ， 但 负 样 本 的 权重 要 满足 特定 的 模式 ， 
比如 权重 全 赋值 为 1。 更 具体 地 说 ， 按 照 如 下 方式 设置 加 权 和 矩阵 


| V a Cc, i) + | 9 Cu,i > 0 


4 (5. 12) 
al ， 其 他 


Hha (cy, ) 是 一 个 随访 问 频 率 cu， 变 化 而 且 远 大 于 1 的 单调 递增 函数 ， 使 得 访问 频率 越 大 ， 权 重 越 高 。 由 于 第 二 类 方法 
的 权重 满足 特性 模式 ， 其 参数 学 习 算法 可 以 是 高 效 的 。 下 面 主要 介绍 第 二 种 算法 。 根 据 权 重 的 设 定 ， 这 个 加 权 的 矩阵 分 解 算法 可 
以 通过 优化 下 面 的 目标 来 学 习 用 户 和 地 点 到 隐 性 空间 的 映射 


min( IWO R — PO") |t + yc PI + lle) (5. 13) 


WATEA, jT BERBEEXNBEJXURUABEERRR-I, BOOS, Ahir, E0, RATARA 
Mi IBEX EPERERÉARILUESU, EARNER RER a, AEAN; 反观 未 访问 的 地 点 ， 要 求 就 较 低 。 
由 于 针对 每 个 用 户 所 有 的 地 点 都 需要 进行 近似 ， 初 步 来 看 计算 复杂 度 应 该 会 比较 高 。 不 过 还 存在 一 种 高 效 的 进行 优化 学 习 的 算 
法 ,而 且 这 种 学 习 算 法 仍然 是 在 交 蔡 最 小 二 乘 的 框架 下 完成 的 。 该 优化 算法 的 时 间 复 杂 度 只 与 所 有 用 户 访 问 过 的 地 点 数目 成 正 
比 ， 即 和 用 户 兴趣 点 和 矩阵 中 非 零 元 素 的 个 数 成 正比 。 其 详细 的 更 新 算法 和 复杂 度 分 析 将 在 5.3.2 节 中 给 出 。 


基于 排序 的 和 矩阵 分 解 方法 


解决 一 类 协同 过 滤 问 题 的 第 二 种 解决 办 法 是 利用 排序 的 方法 ， 其 假设 访问 地 点 应 该 排 在 未 访问 地 点 之 前 ， 因 而 目标 函数 也 是 
按照 这 种 要 求 来 设计 的 。 这 类 方法 对 应 的 目标 函数 包括 对 排序 BIDII10111015、 列 排序 0131014 等 的 方法 。 由 于 简单 性 和 高 效 性 ， 
对 排序 的 使 用 较为 广泛 ， 方 法 中 包括 近似 AUC 的 贝 叶 斯 个 性 化 排序 目标 (BPR) [23]、 加 权 序 对 分 类 (OWPC) [16 和 差 值 均 方 
近似 [1 的 方法 。 贝 叶 斯 个 性 化 排序 方法 近似 于 “访问 地 点 应 该 排序 在 未 访问 地 点 前 面 ”的 AUC 指 标 ， 但 是 忽略 了 地 点 对 之 间 的 
差异 性 。 比 如 说 ， 对 比如 下 两 种 情况 的 地 点 对 : 一 种 情况 下 ， 地 点 对 中 未 访问 的 地 点 排 在 第 一 位 ， 访 问 地 点 排 在 第 十 位 ; 另外 一 
种 情况 下 ， 未 访问 地 点 在 第 九 位 ， 访 问 地 点 也 在 第 十 位 。 这 个 地 点 对 AUC 的 贡献 是 一 样 的 ， 但 是 实际 上 ， 前 者 的 损失 应 该 比 后 
者 的 损失 要 大 。 为 此 ， 加 权 序 对 分 类 方法 被 提出 ， 使 得 访问 地 点 在 所 有 地 点 中 的 排序 尽 可 能 地 往 前 排 。 


假设 -rq 是 预测 偏好 ， 那 和 对 于 用 户 u， 其 访问 地 点 ;和 未 访问 地 点 j， 贝 叶 斯 个 性 化 排序 关注 的 是 ru,j-ru，j 和 各, 一 各. 的 
符号 一 至 性。 为 了 使 其 目标 函数 可 导 ， 利 用 概率 的 交叉 粹 来 定义 其 目标 函数 ?了 >" en > RI AP, > 6 Mew PG > 由 于 
Pr (ru, iru, ) 76 (ru, itu, ) ， 如 果 音 访问 地 点 上 而 在 未 访问 地 点 已 ， 那 么 Pr (ry, i>ru, ) =1。 利 用 sigmoid 函 数 建 模 
这 个 概率 疡 六 > 和 BYP Pas Pa) ma Fa = MO nee C Cai Eu) 那么 贝 叶 斯 个 性 化 排序 的 目标 函数 可 以 表示 如 下 


BPR = > >，>，logo( 人 一 入 (5. 14) 
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logo (x) 是 一 个 关于 变量 x 的 单调 递增 的 止 函 数 ， 其 一 阶 导 数 和 二 阶 导 数 分 别 为 1-G (x) 和 -o (x) (1-0) . Alt, 可 以 
用 梯度 下 降 算 法 对 负 BPR 目 标 进行 最 小 化 。 不 过 由 于 目标 函数 是 三 个 部 分 的 求 和 ， 复 杂 度 巨大 ， 因 而 实际 使 用 中 是 采用 随机 梯度 
下 降 的 方法 。 随 机 梯度 下 降 采 用 重 采 样 的 方法 每 次 采样 一 个 三 元 组 (u，i，j) 【3]， 其 中 i 是 用 户 u 访 问 过 的 地 方 ， 而 j 是 从 二 中 进 
行 抽 样 ， 是 该 用 户 未 访问 过 的 地 点 。 然 而 ， 由 于 负 样 例 空间 巨大 ， 采 用 有 偏好 (或 者 称 为 有 选择 性 ) 的 采样 ， 将 会 有 更 好 的 推荐 
性 能 013]。 根 据 参考 文献 [99] 的 发 现 ， 对 于 有 显著 偏好 差异 的 正 负 例 物品 对 ， 对 参数 的 更 新 的 贡献 是 非常 有 限 的 。 因 而 ， 在 采 
样 时 优先 选择 那些 具有 相对 较为 困难 的 正 负 样 例 对 。 比 如 说 ， 负 例 可 以 从 用 户 从 未 访问 过 但 是 非常 流行 的 地 点 中 进行 采样 。 另 
外 ， 地 点 是 带 有 位 置信 息 的 ， 负 样 例 的 采样 可 以 考虑 正 负 例 物品 对 之 间 的 距离 ， 因 为 那些 离 访 问 地 点 距离 很 近 且 流行 度 又 很 高 的 
地 点 作为 负 例 的 可 能 性 较 大 。 换 句 话说， 用 户 的 访问 地 点 周围 的 流行 地 点 被 用 户 看 到 的 可 能 性 较 高 ， 但 是 用 户 没 有 去 访问 ,那么 
这 个 用 户 更 有 可 能 是 不 喜欢 这 个 地 点 。 


rank, D = 9186, < Puy) 
T 


对 于 加 权 序 对 分 类 来 说 ， 给 定 任意 的 访问 地 点 i， 根 据 其 在 CL“ 中 的 排序 位 置 ， 赋 予 地 点 和 人 ” 的 任 一 地 点 
j 组 成 的 地 点 对 (i, j) 权重 为 E (ranku (i) ) /ranku (i) ， 其 中 ” ^CEU 代表 访问 地 点 序 的 倒数 的 平均 值 。 若 所 有 的 访问 地 点 
都 排 在 志 ” 的 地 点 前 面 ，ranku (i) =0 且 E (rank, (i) ) =0， 对 应 的 权重 就 为 0/0=0， 也 就 是 说 ， 此 时 地 点 的 排序 损失 可 以 不 
再 考虑 。 根 据 这 种 权重 天 系 ， 可 得 到 下 面 的 目标 函数 


OWPC = $ Y! > es m (5. 15) 
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从 中 可 以 看 到 ， 它 会 把 更 多 的 权重 放 到 访问 地 点 集合 中 排 位 靠 前 的 地 点 上 。 为 了 使 得 这 个 目标 函数 是 连续 的 ， 可 以 选择 
logit 损 失 ， 其 刚好 对 应 了 贝 叶 斯 个 性 化 排序 的 加 权 版 本 ; 也 可 以 选择 Hinge 损 失 ， 其 刚好 对 应 了 参考 文献 [132] 的 算法 对 应 的 
情形 。 不 过 利用 Hinge 损 失 的 时 候 ，ranku (i) SRAM, BD” ”为 了 不 全 部 计算 预测 分 数 之 后 再 
进行 排序 来 计算 E (rank, (i) ) 和 ranku (i) ， 可 利用 参考 文献 [132] 提出 的 采样 的 方法 进行 优化 。 考 虑 Hinge 损 失 的 情况 ， 
其 基本 的 想法 是 ， 不 断 地 从 集合 C7 中 进行 有 放 回 的 采样 ， 直 到 采样 到 入 “和 +1 的 情形 。 假 设 总 共 采 样 的 次 数 为 5$， 那 么 目标 函 


数 可 以 转化 为 


OWPC = Y ye (et 


oe 


|)max(0,1 — fui 7-5.) (5. 16) 


不 过 这 个 算法 随 着 不 断 的 优化 学 习 ， 速 度 会 越 来 越 慢 ， 因 为 要 采样 到 一 个 满足 ”< 六 ,+ 1 的 地 点 将 会 越 来 越 难 ， 而 每 一 次 采 
样 的 时 间 都 是 O (K) AY. 


对 于 差 值 均 分 误差 的 目标 来 说 ， 其 直接 优化 如 下 的 目标 函数 


DSE= >, >, >, A— 0 GAD 
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由 于 这 个 函数 涉及 (预测 ) 偏好 差 值 的 平方 ， 因 此 具有 相应 的 高 效 算法 。 具 体 的 细节 可 以 参照 参考 文献 [120] ， 这 里 不 再 
诊 述 。 不 过 与 该 文献 的 目标 函数 不 同 ， 这 个 DSE 目 标 并 没有 考虑 访问 地 点 (i, i) CIARA! 7o ,以 及 未 访问 地 点 小 j’) 
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5.2 ”基于 内 容 的 过 滤 


基于 内 容 的 过 滤 和 邻 域 模型 中 基于 物品 的 协同 过 滤 方 法 类 似 ， 但 其 相似 度 不 再 是 基于 评分 答 阵 而 是 基于 物品 的 内 容 。 在 地 点 
推荐 系统 中 ， 地 点 所 包含 的 内 容 包 含 4 个 部 分 ， 即 地 理 位 置 、 地 点 类 别 、 地 点 的 评价 (Reviews) 及 地 点 的 攻略 (Tips) 。 评 价 
和 攻略 都 是 文本 内 容 ， 但 它们 之 间 有 些 区 别 。 攻 略 可 能 倾向 于 与 地 点 相关 的 好 玩 、 有 趣 的 活动 ， 或 者 是 地 点 探索 时 的 一 些 建议 。 
而 点 评 则 是 对 地 点 的 客观 评价 ， 是 有 好 有 坏 的 ， 而 且 每 一 条 点 评 ， 都 包含 了 五 分 制 或 十 分 制 的 分 数 。 以 餐馆 为 例 ， 攻 略 可 能 说 的 
是 “如 何 到 餐馆 、 几 点 开门 和 关门 、 餐 馆 有 哪些 推荐 菜 、 有 哪些 缺点 ”， 总 体 来 说 可 能 是 用 户 对 餐馆 的 整体 体验 过 程 ; 而 点 评 可 
能 就 是 说 “菜品 贵 不 贵 、 菜 好 不 好 吃 ” 等 等 。 针 对 这 些 不 同 数据 类 型 的 内 容 信息 ， 可 能 有 不 同 的 处 理 方法 。 在 介绍 不 同 数据 类 型 
的 处 理 方法 之 前 ， 先 简要 介绍 基于 内 容 的 过 滤 方 法 。 然 后 分 别针 对 地 理 位 置 、 类 别 、 上 点评、 攻略 来 进行 介绍 。 


5.2.1 ”内 容 过 滤 万 法 简介 


基于 内 容 的 物品 过 滤 方 法 源 于 信息 检索 和 信息 过 滤 ， 起 始 主要 用 于 研究 针对 包含 文本 信息 的 物品 。 算 法 背后 的 思想 是 把 用 户 
设想 为 一 个 随时 间 变 化 的 查询 词 ， 把 物品 设想 为 网 页 ， 从 而 利用 信息 检索 的 常用 方法 来 进行 推荐 。 这 种 内 容 过 滤 可 以 分 为 启发 式 
的 方法 和 基于 机 器 学 习 的 方法 。 其 中 启发 式 的 方法 需要 从 物品 的 文本 信息 中 抽取 关键 词 ， 并 利用 TF-IDF 等 的 方法 确定 每 个 关键 
词 对 于 每 个 物品 的 重要 性 ， 从 而 利用 重要 性 的 向 量 来 表示 物品 的 文本 内 容 信息 。 而 且 还 需要 根据 物品 的 关键 词 向 量 ， 来 计算 用 户 
的 兴趣 ， 即 关键 词 对 于 每 个 用 户 的 重要 性 ， 比 如 通过 (加 权 ) 平均 的 方法 (也 称 为 Racchio 算 法 ) 或 通过 贝 叶 斯 分 类 器 估计 用 户 
对 物品 喜欢 的 可 能 性 的 。 启 发 式 方 法 的 最 后 一 步 是 ， 给 定 了 用 户 和 物品 的 关键 词 向 量 ， 通 过 向 量 之 间 的 余弦 相似 度 等 相关 性 度量 
来 计算 用 户 对 物品 的 偏好 ， 从 而 实现 推荐 过 程 。 机 器 学 习 方法 是 为 每 个 用 户 根 据 对 物品 的 正 负 偏好 利用 朴素 贝 叶 斯 、 决 策 树 或 神 
经 网 络 等 方法 来 训练 分 类 器 ， 从 而 来 判断 用 户 对 于 未 评分 物品 的 偏好 估计 。 


多 样 化 的 数据 类 型 可 能 使 得 需要 采用 不 同 的 技术 来 进行 处 理 。 下 面 将 针对 地 理 位 置 和 文本 内 容 进行 详 述 。 


5.2.2 ”地 理 建 模 


地 点 信息 是 包含 经 度 和 维度 的 。 通 过 球面 距离 可 以 计算 地 点 之 间 的 距离 。 根 据 对 用 户 所 有 访问 地 点 之 间距 离 的 分 布 研 究 发 
现 ， 近 似 满 足 割 律 分 布 ， 如 图 5.1a 所 示 。 也 就 是 说 用 户 对 地 点 的 访问 是 存在 空间 聚集 效应 [所 的 ， 即 服从 地 理学 第 一 定律 
一 一 “任何 事物 都 相关 ， 只 是 相近 的 事物 关联 更 紧密 ”。 于 此 可 以 推断 用 户 未 来 探索 的 地 方 应 该 也 是 在 过 往 访 问 地 点 周围 的 。 
基于 这 种 发 现 ， 下 面 将 阐述 如 何 推断 用 户 在 每 个 地 点 探索 的 可 能 性 。 特 别 地 ， 首 先 要 计算 出 用 户 的 任意 两 个 访问 地 点 之 间 的 距 
离 。 根 据 这 些 距 离 数 据 ， 绘 出 其 密度 分 布 的 直方 图 ， 然 后 利用 客 律 分 布 形式 p> (d) =axdbP， 其 中 a 和 b 为 宕 律 分 布 的 参数 ， 来 进 
行 拟 合 。 假 设 地 点 之 间 的 距离 是 独立 同 分 布 的 ， 那 么 用 户 会 在 地 点 < 人 .进行 探索 的 概率 是 


PILS = |] piia) (5. 18) 
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的 分 析 中 已 指出 ， 群 体 的 究 律 分 布 模式 无 法 确定 出 个 体 是 否 也 满足 窜 律 分 布 模式 。 这 种 差异 性 在 参考 文献 [151] 中 也 被 指出 。 
因而 ， 他 们 采用 核 密度 估计 的 方法 对 用 户 的 任意 访问 地 点 之 间 的 距离 分 布 进行 估计 。 其 实 这 种 分 布 的 个 体 差异 性 是 源 自 于 人 们 访 


问 地 点 的 多 中 心 特性 所 导致 的 ， 正 如 参考 文献 [18] 中 所 指出 的 那样 。 图 5.1b 也 给 出 了 这 种 多 中 心 特性 的 图 示 说 明 。 因 此 提出 
了 基于 聚 类 算法 的 诸如 K 均 值 Bj 和 高 斯 混合 模型 内 的 建 模 方法 。 这 种 建 模 方法 的 一 个 重要 问题 是 所 有 人 的 聚 类 个 数 通常 假设 是 一 
样 多 的 ， 除 非 利用 狄 利克 雷 过 程 的 混合 模型 来 自动 地 学 习 聚 类 个 数 。 除 此 以 外 的 另外 一 种 方法 就 是 直接 针对 空间 地 点 分 布 利用 
二 维 的 核 密度 估计 [|。 
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图 5.1 地理 分 布 示例 


与 一 般 的 核 密度 估计 一 样 ， 给 定 用 户 u 的 访问 地 点 集合 Lu， 在 地 点 | 的 密度 ， 也 称 为 地 理 影 响 力 ， 表 示 如 下 


ood d (i,k) 
T T pK z ) (5. 19) 


其 中 K () 是 一 个 核 函 数 而 d (i, k) 是 地 点 | 和 lk 之 间 的 距离 。 显 然 ， 如 果 要 为 每 个 未 访问 地 点 都 计算 密度 ， 那 是 需要 花费 
O ( (N-[Ly)) [bul 来 得 到 剩 下 N-|Lul 个 地 点 的 影响 力 的 。 但 是 实际 上 ， 可 以 想象 ， 有 相当 一 部 分 的 地 点 ， 由 于 离 访 问 地 点 太 远 
使 得 密度 太 低 而 可 能 不 需要 进行 计算 ， 因 而 可 以 进行 加 速 。 假 设 只 对 离 用 户 访问 地 点 一 定 范围 内 的 地 点 才 需 要 计算 地 理 影响 力 ， 
那么 高 斯 核 中 的 带宽 h 的 设置 需要 满足 “影响 范围 边界 上 的 地 点 的 地 理 影 响 力 接近 0， 即 “(<*%e<， 在 这 种 情况 下 ， 为 了 估计 
在 地 点 | 的 密度 ， 只 有 那些 离 地 点 | 的 指定 范围 内 的 访问 地 点 才 会 被 考虑 在 内 。 此 时 ， 如 果 没有 访问 地 点 是 在 地 点 | 的 指定 范围 内 
的 ， 那 么 在 | 的 范围 查询 还 需要 继续 。 不 必要 的 计算 可 以 通过 基于 传播 的 方法 来 避免 。 具 体 来 说 ， 对 于 每 个 访问 地 点 |k， 它 的 地 
理 影 响 力 会 被 传播 到 在 指定 范围 内 的 所 有 候选 地 点 。 每 个 需要 计算 密度 的 候选 地 点 |i， 它 会 从 访问 地 点 | 接收 到 必 ( 全 
力 。 聚 合 候选 地 点 接受 到 的 所 有 影响 力 并 除 以 |Lu|， 那 么 每 个 候选 地 点 的 地 理 影响 力 就 可 以 被 计算 出 来 。 此 时 的 计算 主要 包含 两 


) 的 影响 


个 部 分 ， 第 一 部 分 就 是 给 |Lu| 访 问 地 点 做 范围 查询 。 如 果 借助 范围 树 (range tree) [/] 来 帮助 做 范围 查询 ， 那 么 时 间 复 杂 度 就 是 

O (|Lul (log2N+K) ) ， 其 中 K 是 查询 得 到 的 访问 地 点 数目 。 第 二 部 分 就 是 为 每 个 查询 到 的 地 点 计算 地 理 影 响 力 ， 时 间 复杂 度 

AO (|LulK) 。 因 此 ， 基 于 传播 模式 的 核 密度 估计 方法 可 以 大 大 减少 地 理 影响 力 估计 的 时 间 。 其 实 ， 这 个 计算 过 程 中 还 包括 了 一 
些 元 余 的 计算 。 比 如 ， 两 个 相 邻 地 点 之 间 的 地 理 影 响 力 应 该 相近 ， 所 以 他 们 的 影响 力 可 以 一 起 进行 计算 。 这 可 以 通过 对 局 域 的 网 
格 进行 划分 并 计算 每 个 网 格 的 地 理 影响 力 来 实现 。 注 意 ， 网 格 法 会 假设 网 格 内 的 所 有 兴趣 点 具有 相同 的 影响 力 。 因 此 ， 只 要 这 个 
网 格 足 够 小 ， 那 么 地 理 影响 力 计 算 的 效果 是 不 会 受到 很 大 的 影响 的 。 


基于 这 种 网 格 划分 的 方法 ， 进 行 变换 之 后 ， 可 以 将 二 维 核 密度 估计 问题 转化 为 一 个 优化 学 习 问 题 ， 使 得 基于 用 户 对 地 点 的 正 
负 偏好 与 利用 朴素 贝 叶 斯 、 决 策 树 或 神经 网 络 等 机 器 学 习 算 法 来 训练 分 类 器 估计 偏好 的 目标 一 致 。 在 介绍 这 个 模型 之 前 ， 先 介绍 
两 个 基本 的 概念 : 用 户 活动 区 域 和 兴趣 地 点 的 影响 范围 简单 来 说 ， 用 户 活动 范围 是 由 一 系列 区 域 及 用 户 在 这 些 区 域 上 出 现 的 可 
能 性 共同 组 成 的 ， 而 兴趣 点 的 影响 范围 是 由 那些 兴趣 点 能 影响 到 的 区 域 及 兴趣 点 对 它们 的 影响 力 所 组 成 的 。 关 于 兴趣 点 的 影响 范 
围 ， 我 们 以 巴黎 的 埃菲尔 铁塔 作为 兴趣 地 点 的 例子 来 进行 说 明 。 它 的 影响 力 区 域 包括 整个 巴黎 ， 因 为 它 是 巴黎 的 一 个 重要 象征 。 
用 更 形式 化 的 定义 来 说 ， 当 我 们 假设 区 域 是 通过 把 这 个 世界 划分 成 L 个 均匀 的 网 格 得 到 的 ， 表 示 为 G={g1，g2，.…，gU)。 基 于 
此 ， 用 户 活动 区 域 可 以 进行 如 下 定义 。 


定义 1 (用 户 活动 区 域 ) ”一 个 用 户 的 活动 区 域 是 由 一 系列 的 用 户 可 能 会 出 现 的 网 格 区 域 1E G 和 在 上 面 可 能 出 现 的 非 负 的 可 
fE ttv E RR 二 0 对 所 组 成 的 。 


我 们 可 以 把 用 户 的 活动 区 域 表 示 成 一 个 非 负 向 量 xe Rt+>0。 向 量 x 中 的 每 一 个 元 素 x| 雪 示 了 这 个 用 户 在 网 格 区 域 gle G 出 现 的 
可 能 性 。 同 样 ， 兴 趣 地 点 的 影响 可 以 进行 如 下 定义 。 


定义 2 (地 点 的 影响 范围 ) ”一 个 地 点 的 影响 范围 是 由 一 系列 的 地 点 能 影响 到 的 网 格 区 域 1EG 和 在 网 格 区 域 上 的 非 负 影响 力 
vCRZOS[ PF Zo mo 


类 似 地 ， 地 点 的 影响 范围 区 域 也 可 以 被 转化 成 一 个 非 负 向 量 ye Rt+>0。 一 般 来 说 ， 不 同 地 点 各 自 的 影响 力 可 能 会 有 所 不 同 。 
但 是 ， 假 设 兴趣 点 的 影响 力 是 以 这 个 地 点 为 中 心 正 态 分 布 的 时 候 ， 如 图 5.2 所 示 ， 即 地 点 | 在 网 格 区 域 g 的 影响 力 为 


一 (个 时 ，xny 之 间 的 点 积 刚好 对 应 了 对 用 户 访问 地 点 的 核 密度 估计 。 具 体 而 言 ， 用 户 u 在 地 点 | 上 的 估计 密度 等 于 
A 如 果 这 些 |, 的 地 点 被 映射 到 相应 的 网 格 区 域 。 “6 那么 这 个 估计 就 变 成 了 "> (<)， 其 中 n 就 表示 成 用 户 


le, jm 


”刚好 等 于 xTy。 


对 网 格 g 的 访问 频率 。 如 果 x 按 照 " “来 设置 时 ， 


Ta 


图 5.2 点 表示 的 兴趣 点 所 生成 的 影响 区 域 向 量 


不 过 与 二 维 核 密度 估计 不 同 ， 用 户 活动 区 域 x 作 为 一 个 可 学 习 的 参数 ， 来 估计 用 户 是 否 会 访问 相应 的 地 点 。 具 体 而 言 


min » 6 (xl y;57y,;) HAQCx,) 5s. t. x, 0 (5. 20) 


其 中 (O) SRR, EU 和 m， 之 间 的 偏差 而 ru， 和 郑 为 说 明 用 户 u 是 否 访问 过 地 点 | 的 0/1 变 量 (当然 也 可 以 是 访问 
次 数 ) 。Q (xu) 是 避免 过 拟 合 的 正则 化 项 。 只 要 & (.，.) MO (x) 是 关于 参数 x 的 凸 函数 ， 那 么 x 就 可 以 通过 凸 优化 算法 来 
进行 学 习 。 前 面 提 到 过 ， 由 于 位 置 访问 数据 是 音 类 偏好 数据 ， 因 而 可 以 类 似 于 加 权 和 矩阵 分 解 的 目标 函数 ， 可 以 采用 如 下 损失 范 数 


CCxiy; 9 Eu) — Wau, i (xiy i l.i y (5. 21) 


基于 这 种 变换 ， 不 仅 可 以 通过 二 维 核 密度 估计 来 实现 地 理 建 模 以 刻画 空间 聚集 效应 ， 而 且 刚好 在 加 权 和 矩阵 分 解 和 地 理 建 模 之 
间 建 立 了 联系 的 纽带 。 我 们 将 在 下 文 的 混合 方法 中 进行 进一步 的 阐述 。 
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searching [EB/OL] .http://link.springer.com/atticle/10.1007 %2FBF00263991. 


5.2.3 ”文本 内 容 与 情感 分 析 


前 面 提 到 过 ， 地 点 涉及 的 内 容 包 含 了 攻略 和 评价 信息 。 这 些 信息 可 以 通过 多 种 方式 使 用 。 针 对 地 点 的 攻略 信息 ， 出 于 降 维 考 
虑 ， 一 般 会 利用 主题 模型 进行 主题 抽取 。 经 典 的 LDA 模 型 [认为 文档 是 由 词 分 布 代 表 的 主题 混合 而 成 的 。 由 于 地 点 的 攻略 是 带 
作者 信息 的 ， 因 此 在 分 析 作 者 的 偏好 时 应 该 把 单个 作者 所 写 的 全 部 攻略 合并 在 一 起 形成 一 个 文档 ; 在 分 析 地 点 的 特点 时 ， 不 同 作 
者 所 写 的 同一 地 点 的 攻略 可 能 包含 一 个 地 点 多 个 方面 的 特性 ， 因 而 需要 把 一 个 地 点 的 所 有 攻略 进行 合并 ， 青 把 每 个 地 点 的 攻略 作 
为 一 个 文档 。 对 所 有 用 户 的 聚合 攻略 和 对 所 有 地 点 的 聚合 攻略 分 别 运用 LDA 模 型 ， 就 可 以 抽取 每 个 用 户 和 每 个 地 点 相关 联 的 主题 
分 布 。 进 而 ， 主 题 分 布 就 当 作 用 户 和 地 点 的 特征 ， 并 应 用 内 容 过 滤 的 技术 方法 来 实现 推荐 。 如 果 把 用 户 的 特征 作为 查询 词 对 应 特 
征 ， 地 点 的 特征 作为 文档 的 相应 特征 ， 便 可 以 采用 信息 检索 中 匹配 模型 (Learning To Match) [135] 来 进行 。 简 而 言 之 就 
是 ， 由 于 用 户 的 主题 特征 和 地 点 的 主题 特征 不 是 相互 对 应 的 ， 无 法 直接 利用 余弦 相似 度 来 计算 相关 性 。 匹 配 模型 的 意义 在 于 ， 会 
把 用 户 的 主题 特征 和 地 点 的 主题 特征 投影 到 同一 个 隐 性 空间 ， 使 得 各 个 主题 在 投影 之 后 可 以 相互 对 齐 。 具 体 而 言 ， 假 设 用 户 u 的 
主题 特征 为 cu， 地 点 i 的 主题 特征 为 ai 


matchy vy Cu a 1) — a, UV! a; C5: 22) 


再 根据 用 户 对 地 点 的 观测 偏好 信息 ， 来 估计 这 个 匹配 模型 中 的 两 个 参数 。 


当然 ， 另 外 一 个 办 法 是 在 学 习 主 题 模型 的 时 候 ， 就 尝试 对 主题 模型 进行 对 齐 。 LDA 是 概率 隐语 义 模 型 (pLSI) 的 贝 叶 斯 推 


广 。 因 此 在 利用 主题 模型 进行 对 齐 时 ， 为 简单 起 见 ， 可 以 考虑 隐语 义 分 析 模型 ， 其 背后 主要 的 技术 是 奇异 值 分 解 。 特 别 地 ， 假 设 
用 户 词 矩 阵 记 为 X， 地 点 词 和 矩阵 记 为 Y。 而 矩 阵 里 面 的 元 素 可 以 为 TF-IDF， 其 正比 于 词 在 相应 文档 中 出 现 的 次 数 ， 并 会 提升 稀有 
词 的 相对 重要 性 。 假 设 先 对 用 户 词 矩阵 进行 奇异 值 分 解 ， 取 前 K 个 最 大 的 奇异 值 及 其 对 应 向 量 ， 可 得 到 如 下 表示 


X = URTE (Vk )' (Is 4o) 


BBA viz: vi RAITAR TST BPA SCE. ALBIS FSP AEAEE eas IB) RR FF 
的 ， 即 WR 一 %, 便 可 以 得 到 如 下 的 关于 地 点 语义 特征 的 表示 


UKZK —YVi (5. 24) 


如 果 从 投影 的 角度 出 发 ， 由 于 从 Ci R—"MERABEE, XV A YVASS SINS PPR ET KB VISUS n 仅 张 成 的 
子 空间 中 。 也 就 是 说 ，XW 和 YA 中 的 每 一 行 ， 分 别 代表 了 用 户 和 地 点 在 这 个 隐 子 空间 中 的 坐标 向 量 。 利 用 向 量 之 间 的 余弦 夹 角 
便 可 以 计算 得 到 用 户 和 地 点 之 间 的 匹配 性 。 


当然 ，“ 用 户 词 矩 阵 和 地 点 词 中 的 词 在 隐 空 间 中 的 表示 是 一 样 ”的 假设 可 能 过 强 ， 可 以 通过 一 定 的 方式 进行 缓解 。 前 面 提 到 
过 ， 奇 异 值 分 解 是 可 以 用 加 约束 的 最 小 二 乘法 近似 来 求解 的 。 那 么 隐 性 空间 的 对 齐 则 可 以 通过 如 下 的 方法 来 学 习 


min |X —U* Gli + lY—U'G|i -AllG —Gl 


u* wu’. 6.6 
st UVU HAO AG C= TOG =I G.2) 


其 中 i661 可 以 刻画 这 两 类 词 隐 义 的 差异 性 ， 比 如 可 以 利用 和 1 或 2 范 数 。 


[1] DM Blei, AY Ng, MI Jordan.Latent dirichlet allocation [J] .the Journal of machine Learning research, 2003, 3: 993-1022. 


5.3 ”混合 方法 


基于 内 容 的 过 滤 方 法 主要 推荐 内 容 相似 的 物品 。 以 餐馆 来 说 ， 如 果 以 地 理 位 置 、 口 味 和 菜系 作为 餐馆 的 内 容 信息 的 话 ， 基 于 
内 容 的 过 渡 方 法 就 会 推荐 离 去 过 餐馆 距离 接近 、 口 味 相近 、 菜 系 类 似 的 餐馆 ， 能 推荐 新 开 的 餐馆 。 然 而 ， 如 果 一 个 用 户 从 没有 去 
过 粤菜 馆 ， 这 种 方法 就 不 会 向 这 个 用 户 推 荐 粤菜 馆 ， 推 荐 面临 过 拟 合 (或 者 称 为 过 度 专 一 化 ) 的 问题 。 与 之 不 同 的 是 ， 协 同 过 滤 
则 是 通过 用 户 的 访问 历史 来 进行 推荐 的 ， 一 般 推荐 相似 用 户 或 杀 密 朋友 去 过 的 地 点 ， 地 点 的 多 样 性 较 好 ， 但 缺乏 推荐 新 地 点 的 能 
力 。 而 且 每 个 人 的 移动 历史 均 具有 较 高 的 见 余 性 ， 因 而 访问 的 地 点 数 是 相对 较 少 的 ， 因 此 也 会 面临 稀 玖 性 的 问题 。 综 上 所 述 ， 这 
两 种 方法 的 结合 对 于 同时 解决 新 地 点 推荐 问题 、 多 样 性 问题 及 稀疏 性 问题 都 起 到 很 重要 的 作用 。 


5.3.1 ”混合 模型 基本 方法 


根据 爱 多 麦克 逊 思 和 塔 效 林 在 参考 文献 [1] 中 的 总 结 ， 混 合 方法 可 以 分 成 4 类 。 第 一 ， 分 别 实 现 协同 过 滤 和 内 容 过 滤 的 方 


法 ， 然 后 结合 他 们 的 预测 结果 。 这 种 结合 既 可 以 是 根据 各 推荐 方法 的 预测 分 值 进行 线性 组 合 ， 或 者 投票 ， 或 者 集成 ; 也 可 以 根据 
某 些 性 能 指标 选择 较 好 的 推荐 方法 来 进行 推荐 。 其 中 ， 基 于 各 推荐 方法 预测 分 值 的 集成 学 习 将 在 5.3.5 节 中 介绍 。 第 二 ， 把 内 容 

特性 考虑 进 协同 过 滤 的 方法 中 。 常 见 的 方法 是 基于 用 户 的 协同 过 滤 方 法 。 特 别 地 ， 基 于 地 点 的 内 容 为 用 户 建立 画像 ， 使 得 在 计算 
用 户 相似 性 的 时 候 ， 不 仅 考虑 共同 访问 过 的 地 点 ， 而 且 考 虑 用 户 在 画像 上 的 相似 性 。 下 面 5.3.2 节 中 介绍 的 地 理 建 模 和 协同 过 滤 

的 联合 模型 属于 这 一 类 。 第 三 ， 把 协同 过 滤 的 特性 加 到 内 容 过 滤 的 方法 之 中 。 以 地 点 推荐 来 说 ， 利 用 用 户 的 地 点 访问 历史 构建 用 
户 的 内 容 画 像 ， 并 应 用 降 维 等 技术 构建 用 户 的 属性 ， 再 应 用 相关 的 内 容 过 滤 技 术 进行 推荐 。 在 地 点 推荐 方向 ， 目 前 尚未 发 现 这 类 
方法 。 最 后 一 种 方法 就 是 设计 一 个 统一 的 推荐 模型 。 比 如 说 ， 假 设 地 点 的 内 容 是 文本 ， 那 么 可 以 应 用 生成 模型 进行 建 模 。 同 样 ， 
推荐 系统 的 矩阵 分 解 方法 也 可 以 基于 生成 模型 进行 表示 。 因 而 可 以 统一 地 使 用 生成 模型 来 进行 建 模 。 其 中 典型 的 方法 就 是 王 崇 

(音译 ) 设计 的 协同 主题 回归 模型 中 。 在 5.3.3 节 和 5.3.4 节 中 介绍 的 方法 就 属于 这 类 统一 推荐 模型 的 方法 。 


[1] C Wang，D M Blei.Collaborative topic modeling for recommending scientific articles [C] .In Proceedings of KDD’ 11, ACM, 2011. 


5.3.2 ”地 理 建 模 和 协同 过 滤 的 联合 模型 


在 前 面 讨论 关 于 内 容 的 过 滤 方 法 时 ， 介 绍 了 一 种 基于 优化 学 习 的 二 维 核 密度 估计 算法 ， 其 中 的 用 户 活动 区 域 可 以 认为 是 用 户 
的 内 容 画像 (地 点 的 影响 区 域 则 是 地 点 的 内 容 ) 。 这 种 方法 可 以 很 容易 地 与 矩阵 分 解 进行 结合 。 特 别 地 ， 对 矩 阵 分 解 得 到 的 用 户 
隐 向 量 和 兴趣 点 隐 向 量 进行 增 广 ， 分 别 增加 用 户 活动 区 域 向 量 x 和 兴趣 点 影响 向 量 y， 如 图 5.3 所 示 。 前 面 介绍 过 ， 这 些 扩展 向 量 
是 由 一 系列 的 固定 大 小 的 网 格 组 成 的 ， 用 户 活动 区 域 向 量 x 中 的 每 个 元 素 代 表 了 这 个 用 户 在 这 个 网 格 区 域 出 现 的 可 能 性 ， 而 兴趣 
点 影响 向 量 y 中 的 每 个 元 素 则 代表 了 兴趣 点 对 相应 网 格 的 影响 力 。 这 种 增 广 方法 可 以 使 得 用 户 的 隐 向 量 能 够 显 性 地 包含 地 理 信 
息 ， 使 得 每 个 人 对 地 点 的 偏好 被 估计 为 在 这 个 扩展 空间 中 的 点 积 。 该 扩展 空间 中 的 内 积 既 包 含 了 来 自 于 和 矩 阵 分 解 产 生 的 隐 式 空间 
中 的 用 户 兴趣 也 包含 了 对 地 点 的 位 置 区 域 的 偏好 。 特 别 地 ， 用 户 对 地 点 的 偏好 估计 表示 为 


R = PQ" + XY? (5. 26) 


隐 向 量 NK 
3 0/1 偏好 矩阵 x 
E L 
a \ 
POI L POI 


图 5.3 WMI EE Z2 fp d ME REA ( 隐 式 空间 的 维度 为 而 网 格 的 数目 假设 为 L) 


其 中 把 所 有 用 户 的 活动 范围 向 量 按 行 堆积 可 得 到 用 户 活动 范围 矩阵 XE 本 并 且 把 所 有 兴趣 点 的 影响 范围 向 量 按 行 堆积 可 得 
到 兴趣 点 影响 区 域 矩阵 YE R^ 前 面 提 到 过 ， 地 点 的 影响 力 向 量 是 按照 高 斯 分 布 进行 事先 设置 的 ， 那 么 在 这 个 偏好 估计 中 需要 优 
化 P、Q、X 这 三 个 和 矩阵。 这 三 个 矩阵 的 优化 学 习 是 通过 最 小 化 如 下 的 目标 函数 来 实现 的 ， 即 


min |W (R— PQ" — XY") |è + yd Pli + IQ) +alxl, 
s.t.X>0 (5.29) 


这 里 添加 了 ||X1|| 约 束 项 ， 是 矩阵 X 的 L1 范 数 。 因 为 矩阵 的 L1 范 数 常 被 用 来 做 矩阵 的 稀疏 性 约束 [1]， 所 以 与 人 们 有 限 的 活动 范 
E 家、 工作 地 点 ， 等 等 ) 相 一 致 。 同 时 ， 这 种 稀疏 性 约束 也 可 以 帮助 提高 推荐 的 性 能 和 效率 。 

针对 这 个 目标 函数 的 优化 ， 可 以 通过 区 蔷 迭 代 优化 的 过 程 来 进行 ， 其 包括 了 一 个 固定 用 户 活动 区 域 X 学 习 用 户 隐 向 量 和 地 点 
隐 向 量 的 过 程 ， 以 及 一 个 固定 用 户 隐 向 量 和 物品 隐 向 量 针对 X 的 加 权 非 负 最 小 二 乘 的 过 程 。 由 于 每 个 步骤 都 能 保证 目标 函数 的 非 
递增 性 ， 因 此 交 蔷 进 代 优化 的 算法 便 能 保证 目标 函数 的 非 递增 性 。 

当 固 定 用 户 活动 方法 区 域 X， 目 标 函 数 关 于 用 户 隐 向 量 和 地 点 隐 向 量 的 最 小 化 是 类 似 于 前 面 提 到 的 加 权 和 矩阵 分 解 中 的 交 蔡 最 
小 二 乘 的 过 程 。 更 具体 地 说 ， 用 户 u 的 隐 向 量 的 公式 更 新 是 令 目 标 消 数 关 于 其 的 导数 为 零 而 求 得 的 


p, = (QW'O + yD OTW" Cr, — Yx.) (5. 28) 


其 中 W4 是 一 个 NxN 的 对 角 和 矩阵 ， 满 足 w: ww; 而 ry 是 用 户 u 的 列 评分 向 量 。 这 里 ， 由 于 我 们 给 未 访问 的 位 置 设置 了 一 个 相同 
的 权重 1， 根 据 参 考 文献 [42] ， 这 个 计算 可 以 被 快速 地 计算 。 特 别 地 ，QIWuQ=QTI (w'-I) Q+QIQ。 在 这 种 情况 下 ， 第 二 
部 分 是 独立 于 用 户 的 ， 可 以 预先 计算 好 ， 而 第 一 部 分 只 需要 花费 O (||ru||oK2) ， 其 中 矩阵 的 4 0 范 数 是 矩阵 里 面 的 非 零 元 素 个 数 

( 它 也 是 用 户 u 的 访问 地 点 个 数 ) 。 关 于 KxK 方 阵 的 逆 ， 我 们 假设 它 花费 O (K3) ， 虽 然 可 能 会 有 更 高 效 的 算法 存在 ， 但 可 能 对 
于 常规 的 较 小 的 K 值 是 没有 很 大 差别 的 。 对 剩 下 的 部 分 CW'$% 运 用 类 似 的 方法 来 计算 ， 其 中 旬 二 (7 一 Yx,) BEBE? |KO 
来 得 到 一 个 Ex1#, 的 和 矩阵。 最 后 ， 完 成 逆 矩 阵 和 中 间 和 矩阵 的 乘积 需要 花费 ol# KORRE. e, CARROLA KHK 
的 时 间 来 更 新 用 户 u 的 隐 向 量 pu。 如 果 我 们 串 行 地 更 新 所 有 用 户 的 隐 式 向 量 (由 于 用 户 之 间 没 有 依赖 ， 完 全 可 以 做 并 行 ) ， 最 后 


E SHAOIRE’? *), R—R—XY!, 
总 开销 是 241RI,K'+ MK) ,其 中 RXY" 


类 似 地 ， 令 目标 函数 关于 地 点 i 的 隐 向 量 qi 的 梯度 为 零 ， 可 求 得 q 的 更 新 公式 如 下 
q; 一 (PITWP + yI) PW Cr; — Xy) (5. 29) 


其 中 W 是 一 个 Mx MASTERED, iie "e TEE RAIDERS IRR. MEFS ORS, SERA 
的 隐 式 向 量 的 代价 是 OCR 二 NK。 


FELT or xx 在 通常 的 情况 下 是 满足 的 ， 一 次 挝 代 更 新 隐 式 向 量 的 总 时 间 是 O (RIK) -通常 被 设置 成 一 个 比较 小 的 数 
(50 ~ 200) ， 以 至 于 这 个 复杂 度 可 以 被 认为 是 与 新 矩阵 &A 中 的 非 零 元 素 个 数 成 正比 的 (会 远大 于 原 矩 阵 R 中 的 非 零 元 素 个 
数 ) 。 因 此 我 们 可 以 看 到 ， 短 阵 X 的 稀 玖 限制 对 于 更 新 隐 向 量 的 性 能 是 很 重要 的 。 此 外 ， 为 了 得 到 更 高 的 效率 ,我们 假设 为 兴趣 
点 生成 影响 力 区 域 的 正 态 分 布 是 截断 的 ， 以 至 于 和 矩阵 Y 的 稀疏 结构 也 能 得 到 保证 。 换 句 话 说 ， 只 有 那些 离 兴趣 点 在 一 定 范围 内 
( 即 d 公 里 以 内 ) 的 区 域 才 会 被 认为 会 受 兴趣 点 的 影响 。 这 个 在 一 定 程度 上 是 合理 的 ， 因 为 正 态 分 布 会 随 着 与 中 心 距 离 的 增长 快 
速 地 衰减 。 


根据 上 述 的 分 析 ， 隐 向 量 的 更 新 旨 在 近似 新 矩阵 & RO XY. 因此 ， 通 过 地 点 的 位 置 区 域 信息 ， 给 隐 向 量 模型 添加 了 很 多 的 负 


样本 。 特 别 地 ， 由 于 X 和 Y 的 非 负 性 ， 这 些 新 矩阵 中 的 负 样本 有 着 负 的 评分 值 ， 评 分 的 绝对 值 正 比 于 用 户 对 地 点 的 区 域 偏 好 。 因 
而 ， 在 经 常 访问 地 点 周围 的 未 访问 地 点 就 有 很 大 的 可 能 性 会 成 为 负 样 例 。 这 进一步 证 实 了 之 前 的 关于 在 协同 过 滤 中 利用 地 理 建 模 
可 以 帮助 应 对 稀 琉 性 挑战 的 结 


下 面 转向 来 学 习 用 户 活动 区 域 矩 阵 X。 当 固定 了 用 户 隐 向 量 和 兴趣 点 隐 向 量 之 后 ， 目 标 函 数 就 类 似 于 非 负 的 加 权 最 小 二 乘 问 
题 。 它 的 优化 学 习 可 以 通过 投影 梯度 下 降 的 方式 来 完成 。 这 个 方法 对 于 解决 边界 约束 的 优化 问题 是 非常 有 效果 的 [所 Sl。 基本 的 思 
路 是 通过 梯度 下 降 更 新 参数 ， 然 后 把 更 新 后 的 参数 投影 到 边界 约束 定义 的 可 行 区 域内 。 然 而 ， 在 梯度 下 降 的 过 程 中 学 习 率 的 选择 
需要 保证 投影 后 的 参数 能 够 充分 地 降低 目标 函数 。 因 而 我 们 可 以 利用 在 参考 文献 [66] 中 提出 的 方法 来 更 新 用 户 区 域 矩阵 。 然 
而 ， 由 于 加 权 和 矩 阵 和 隐 向 量 的 存在 ， 目 标 函 数 关 于 矩 阵 X 计 算得 到 的 梯度 是 一 个 稠密 矩阵， 矩阵 过 大 以 至 于 实际 中 很 难 一 次 性 地 
更 新 所 有 的 参数 。 不 过 ， 可 以 为 每 个 用 户 独立 性 地 更 新 用 户 区 域 向 量 。 下 面 改写 目标 消 数 ， 把 用 户 u 的 活动 范围 向 量 作 为 自 变 
量 ， 并 略 去 与 它 无 天 的 项 


LEX.) = || w^ € m Op, =X, ) | E "dA lx, | ] 
~ 0 (5. 30) 
对 这 个 目标 函数 求 导 ， 得 到 目标 函数 L (xu) 关于 xu 的 梯度 


V L(x.) = Y!'W'(Yx, — (r,— Op.) +a C5. 31) 


基于 这 个 梯度 ， 我 们 如 下 更 新 Xu 
(5.32) 


其 中 P，(x) 是 一 个 把 向 量 xERL 投 射 到 非 负 象限 RL> 0 的 函数 。 具 体 来 说 
{2 L* M > Q 

) = E 
(0, 其 他 


注意 学 习 率 a 的 选择 需要 确保 目标 函数 的 充分 下 降 ， 也 就 是 说 


P, xj lc l,e, L} (5. 93) 


Loa UI ev Le) ee ———) (5. 34) 


H ERRATA FMES, IOEIRERJO.01. EHTEIX EERESESUEALTXUBS—ÉAERÉA, Alm, KARAT 
速 地 通过 梯度 向 量 和 海 森 矩 阵 (Y LOO Y wW 2 来 计算 ， 也 就 是 


(=e Lee A. ++ ax] WL(x, Ax, <0 (5.35) 


其 中 人 ,一 x ”一 x 表示 Xx 的 变化 。 在 这 种 情况 下 ， 每 一 步 中 ， 尽 管 目标 函数 可 以 足够 地 下 降 ， 但 是 它 需 要 反复 地 去 搜索 


这 个 学 习 率 (比如 ， 根 据 一 些 启发 式 的 规则 ) 。 随 着 学 习 率 的 变化 ， 梯 度 会 上 升 YL‘*) 作 .的 量 。 由 于 不 同 的 地 点 会 有 大 致 相同 
数量 的 影响 区 域 (RRA) ， 那 么 梯度 的 增长 和 检验 充分 下 降 条 件 最 多 需要 花费 Ox.1ow) 的 时 间 。 梯 度 中 与 Xu 无关 的 部 分 可 
以 用 类 似 于 更 新 隐 向 量 的 方式 来 计算 ， 它 的 时 间 复 杂 度 被 海 森 和 矩阵 的 计算 所 主导 ， 也 就 是 ?11%1*?。 当 每 次 为 每 个 用 户 串 行 地 做 
更 新 操作 时 ， 总 体 的 复杂 度 就 是 2(# iter XlX lom + IRn ,其 中 #iter 是 更 新 的 迭代 次 数 而 t 是 成 功 得 到 满足 充分 下 降 约束 的 学 习 率 
的 尝试 次 数 。 这 里 再 一 次 体现 了 和 矩 阵 稀 玻 性 对 于 优化 性 能 的 重要 性 。 

有 人 可 能 会 好 奇 在 这 种 更 新 策略 下 用 户 的 活动 区 域 会 是 什么 样子 的 ， 如 下 的 分 析 将 会 给 出 有 趣 的 答案 。 为 简单 起 见 ， 假 设 不 
考虑 隐 向 量 。 用 户 活动 区 域 区 域 矩阵 X 被 初始 化 为 零 。 在 第 一 次 更 新 之 后 ，xu=aP， (YWUr-A) ， 因 而 包括 了 那些 从 用 户 的 访 
问 地 点 通过 和 矩 孟 Y 直 接 可 达 的 区 域 。 用 户 在 网 格 区 域 出 现 的 可 能 性 依赖 于 加 权 和 矩 嘿 Wu。 根 据 之 前 对 加 权 和 矩阵 的 设置 ， 可 以 看 到 
这 第 一 次 迭代 与 核 密度 估计 很 相似 ， 只 是 用 户 活动 区 域 的 更 新 要 求 目标 函数 是 非 递 增 的 。 在 后 面 的 迭代 中 ， 由 于 和 矩阵 YTWUY 刻 
画 了 地 点 之 间 的 用 户 依赖 的 空间 相关 性 ， 用 户 的 活动 区 域 可 以 通过 这 个 矩阵 YTWuY 在 目标 函数 递减 的 条 件 下 进行 延 拓 。 

[1] K P Murphy.Machine learning: a probabilistic perspective [M] .Cambridge: The MIT Press, 2012. 


[2] J Nocedal, SJ Wright.Numerical optimization [M] .NewYork: Springer, 1999. 


[3] C-J Lin.Projected gradient methods for nonnegative matrix factorization [J] .Neural computation, 2007, 19 (10) : 2756-2779. 


5.3.3. ”社交 正则 化 的 矩阵 分 解 


随 着 Web 2.0 的 发 展 ， 社 交 成 为 了 一 个 重要 的 产品 要 素 ， 这 也 促使 了 移动 社交 网 络 的 兴起 与 发 展 ， 使 得 基于 地 理 位 置 的 社交 
成 为 一 种 重要 的 社交 方式 。 同 时 ， 正 如 在 第 3 章 中 提 到 过 的 ， 在 线 社交 关系 也 在 一 定 程度 上 约束 了 人 们 的 出 行 。 因 而 ， 在 线 社交 
关系 对 于 预测 用 户 访问 未 访问 地 点 也 会 起 到 重要 作用 ， 因 此 也 是 地 点 推荐 的 重要 影响 因素 。 结 合 社交 关系 的 方法 主要 有 多 类 方 
法 ， 下 面 主要 介绍 三 类 。 第 一 类 方法 ， 就 是 利用 社交 网 络 计算 用 户 的 相似 性 ， 结 合 在 移动 行为 上 的 相似 性 ， 基 于 用 户 的 协同 过 滤 
方法 进行 地 点 推荐 [1]; 第 二 类 方法 是 构建 用 户 用 户 、 用 户 地 点 的 关系 统一 关系 网 络 ， 再 基于 带 重启 动 的 随机 游 走 的 方法 咎 ; 第 三 
类 方法 是 矩阵 分 解 相关 的 方法 ， 主 要 包含 两 种 : 共同 分 解 和 正则 化 。 共 同 分 解 是 同时 分 解 社 交 网 络 和 分 解 用 户 对 地 点 的 访问 矩 
阵 ， 但 用 户 的 隐 向 量 是 相互 共享 的 BI 册 。 正 则 化 的 方法 是 下 面 要 详细 介绍 的 一 种 方法 ， 其 基本 思想 是 社交 网 络 中 关系 较 近 的 两 个 
人 的 隐 向 量 比较 相似 。 假 设 用 户 的 相似 性 由 对 称 和 矩阵 5 来 描述 ，su，v=sy，u 表 示 用 户 u 和 用 户 v 的 相似 度 。 那 么 其 中 一 种 基于 社交 
正则 化 的 矩阵 可 分 解 优 化 为 如 下 的 目标 函数 


e+ CPE + OIE) +A Xi suol Pa — pol 


bop 


min|WO (R — PQ") 
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(5. 36) 


对 这 个 目标 函数 求 导 令 导数 为 零 ， 可 以 得 到 pu 的 更 新 公式 。 可 以 发 现 该 更 新 公式 将 主要 由 两 部 分 组 成 ， 一 部 分 是 从 地 点 访 
问 历史 获得 的 信息 ， 另 一 部 分 则 是 从 相似 朋友 那里 获取 的 信息 。 越 相似 的 朋友 ， 对 其 影响 就 越 大 。 这 种 影响 全 少 可 以 来 自 两 个 角 
度 ， 第 一 是 好 朋友 的 推荐 。 假 设 他 的 好 朋友 去 了 一 个 非常 好 的 餐馆 ， 那 么 便 可 能 会 推荐 给 他 。 第 二 是 共同 出 行 ， 比 如 说 他 和 他 的 
好 朋友 相约 去 同一 个 餐馆 吃饭 。 这 两 种 角度 的 影响 可 以 在 这 个 学 习 方法 中 得 到 体现 。 


另外 一 种 社交 正则 化 的 方法 是 假设 每 个 人 的 隐 向 量 和 其 所 有 朋友 的 加 权 平均 隐 向 量 比较 相似 中， 即将 公式 (5.36) 中 的 最 后 
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令 该 目标 函数 天 于 pu 的 导数 为 零 ， 可 以 友 现 ， 相 比 于 第 一 种 方法 ， 这 种 方法 在 更 新 用 户 的 隐 向 量 时 使 用 了 二 度 朋 友 的 隐 向 
量 。 关 于 二 度 朋友 的 定义 可 以 参考 第 1 章 中 的 1.2 节 “概念 与 定义 ”。 


[I] M Ye, P Yin, et alExploiting geographical influence for collaborative point-of-interest recommendation [C] .In Proceedings of 
SIGIR’ 11, ACM, 2011. 

[2] A Noulas, S Scellato, et al.A random walk around the city: New venue recommendation in location-based social networks [C] .In 
Proceedings of SocialCom’ 12, IEEE, 2012. 

[3] H Ma, H Yang, et al.Sorec: social recommendation using probabilistic matrix factorization [C] .In Proceedings of the 17th ACM 
conference on Information and knowledge management, ACM, 2008. 

[4] J Tang, H Gao, et al.Exploiting homophily effect for trust prediction [C] .In Proceedings of WSDM' 13, ACM, 2013. 

[5] M Jamali, M Ester.A matrix factorization technique with trust propagation for recommendation in social networks [C] .In Proceedings of 


RecSys’ 10, ACM, 2010. 


5.3.4 内容 感 站 的 协同 过 滤 广 法 


虽然 地 理 信息 和 社交 关系 网 络 都 可 以 被 无 颖 地 接 入 到 矩阵 分 解 之 中 ， 但 是 这 个 统一 的 框架 不 够 通用 ， 使 得 在 接 入 其 他 诸如 文 
本 、 图 片 等 类 型 的 数据 时 会 带 来 一 定 的 困难 。 因 此 ， 本 节 将 介绍 更 加 通用 的 内 容 感 知 的 协同 过 滤 方 法 。 这 种 通用 的 方法 已 经 在 多 
篇 文献 中 进行 过 详 述 ， 比 如 微软 研究 员 大 卫 . 斯 特 恩 等 人 提出 的 MatchBox[1]， 前 雅虎 研究 员 迪 帕克 . 阿 加 瓦尔 提出 的 RLFMD， 谷 
歌 研究 员 斯 提 芬 伦 多 提出 的 LibFMBI]， 以 及 我 们 提出 的 ICCF 内 。 这 几 种 方法 在 本 质 上 是 相似 的 ， 具 有 类 似 的 输入 。 用 紧凑 一 点 
的 方式 来 说 的 话 ， 如 图 5.4 所 示 ， 是 将 所 有 用 户 的 信息 处 理 成 用 户 特征 矩阵 X、 而 将 所 有 物品 的 信息 处 理 为 物品 特征 矩阵 Y， 与 用 
户 物 品评 分 矩阵 R 一 起 作为 算法 的 三 个 输入 P] 其 中 ，X 中 的 每 一 行 Xu 表示 用 户 u 的 特征 向 量 ， 而 Y 中 的 每 一 行 y 素 示 物 品 i 的 特征 向 
量 。 这 类 方法 将 用 户 、 物 品 、 用 户 特征 和 物品 特征 映射 到 同一 个 隐 性 空间 。 前 面 提 到 用 户 的 映射 答 阵 为 P， 物 品 的 映射 矩阵 为 
Q; 假设 用 户 特 征 的 映射 和 矩阵 为 U， 物 品 特征 的 映射 短 阵 为 V; 那么 用 户 和 物品 的 最 终 隐 向 量 就 是 两 个 部 分 的 和 ， 即 
POPEXU. 0 oh 此 时 ， 用 户 u 对 物品 的 偏好 ?估计 为 


fuai = (p, Ux) @;+V y) 
= plq; + xIUq; + pV y; + xIUV' y, 


(5. 38) 
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图 5.4 ”内 容 感 知 协同 过 滤 框 架 


由 4 部 分 的 向 量 内 积 组 成 ， 分 别 为 用 户 和 物品 、 用 户 特 征 和 物品 、 用 户 和 物品 特征 及 用 户 特征 和 物品 特征 之 间 的 内 积 。 以 地 
点 推荐 来 说 ， 用 户 是 否 去 访问 一 个 地 点 取决 于 用 户 对 地 点 的 偏好 、 用 户 群 组 (如 学 生 、 男 性 ) 对 该 地 点 的 偏好 、 用 户 对 地 点 群 组 
(如 川菜 和 餐馆、 粤菜 餐馆 ) 的 偏好 及 用 户 群 组 对 地 点 群 组 的 偏好 。 


这 4 个 投影 矩阵 的 学 习 可 通过 优化 如 下 的 目标 函 数 来 实现 ， 特 别 地 


le +yCPli+ lai» 
E) (5. 39) 
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用 变量 5 和 9 来 替换 其 中 的 求 和 部 分 ， 便 可 以 变换 这 个 目标 函数 为 
min (IWOR— PO") + cB — XUI + Hg —Yv 
P. Q.U.V 
+a(lU |} + |V 


149) 


E) (5. 40) 


由 于 这 个 目标 函数 是 关于 这 四 个 参数 的 二 次 函数 ， 因 此 这 个 目标 溯 数 的 交替 迭代 优化 将 变 得 异常 简单 。 在 固定 U 和 V 的 情况 
下 ， 先 后 令 目 标 函 数 关 于 每 个 用 户 的 六 和 每 个 物品 的 7 的 梯度 为 零 ， 便 可 以 求 得 关于 多 和 的 更 新 公式 。 在 固定 B 和 8 的 情况 下 ， 
分 别 令 目标 函数 关于 U 和 V 的 梯度 为 零 ， 便 可 以 求 得 U 和 V 的 更 新 公式 。 注 意 : 如 果 对 P 了 和 & 赋 加 L1 而 非 弗 罗 贝 尼 乌 斯 范 数 的 平 
方 ， 那 么 可 以 起 到 特征 选择 的 作用 。 有 兴趣 的 读者 可 以 进一步 阅读 参考 文献 [58, 51, 57] 等 。 


[|] D H Stern, R Herbrich, T  Graepel.Matchbox: large scale online bayesian recommendations [C] .In Proceedings of 
www’ 09, ACM, 2009. 

[2] D Agarwal, B-C Chen.Regression-based latent factor models [C] .In Proceed-ings of KDD’ 09, ACM, 2009. 

[3] S Rendle.Factorization machines with libfm [J] .ACM Transactions on Intelligent Systems and Technology (TIST) , 2012, 3 (3) : 
57. 

[4] D Lian, et al.Content-aware collaborative filtering for location recommendation based on human mobility data [ C] .In Proceedings of 
ICDM’ 15, IEEE, 2015. 

[5] 这 里 为 了 使 得 阐述 的 方法 具有 更 好 的 通用 性 ， 因 此 用 物品 而 非 地 点 来 进行 描述 。 


5.35 SERES 


最 后 一 种 非常 通用 的 混合 方法 是 集成 学 习 。 集 成 学 习 的 方法 有 很 多 ， 如 Bagging、Boosting、stacking 等 方法 。 基 本 思路 
是 将 不 同 推荐 方法 的 预测 偏好 进行 于 加 。 这 些 集 成 方法 中 ，Stacking 的 方法 非常 常见 ， 特 别 是 在 很 多 推荐 系统 的 比赛 中 。 
Stacking 模 型 可 以 使 用 任意 的 基 推 荐 模型 。 首 先 它 独立 地 训练 各 个 基 推 荐 模型 ， 然 后 利用 组 合 模型 ， 比 如 逻辑 斯 特 回 归 ， 来 组 
合 基 模型 的 输出 。 更 多 关于 集成 学 习 的 技术 和 理论 问题 可 以 参考 周志 华 教授 的 关于 集成 学 习 的 图 书 [1]。 由 于 该 部 分 超出 了 本 书 的 
范畴 ， 因 此 这 里 不 再 班 述 。 


[1] Z-H Zhou.Ensemble methods: foundations and algorithms [M] .Florida: CRC press, 2012. 


5.4 ”情境 感知 的 协同 过 滤 方法 


目前 为 止 所 介绍 的 推荐 方法 都 是 个 性 化 的 推荐 方法 ， 会 为 每 个 人 提供 个 性 化 的 推荐 列表 。 不 过 这 些 方法 并 没有 针对 不 同 的 情 
境 信息 来 进行 区 分 。 这 种 区 分 是 很 有 价值 的 ， 能 提供 更 为 精准 的 推荐 。 比 如 说 ， 人 们 在 不 同时 间 不 同 地 点 应 该 有 不 一 样 的 兴趣 爱 
好 ， 因 而 可 能 会 做 出 不 同 的 选择 。 因 此 ， 推 荐 列表 也 需要 根据 不 同 的 情境 来 做 相应 的 调整 。 情 境 的 信息 是 很 多 的 ， 前 面 所 说 的 时 
间 和 地 点 就 是 其 中 的 两 种 。 除 此 以 外 ， 情 境 信息 还 包括 同伴 、 天 气 、 心 情 ， 等 等 。 这 种 情境 感知 的 协同 过 渡 方 法 有 很 多 [1 外 ， 本 
节 我 们 将 主要 介绍 基于 分 解 的 情境 感知 的 协同 过 滤 方 法 。 鉴 于 对 时 间 和 上 个 地 点 的 情境 在 推荐 系统 中 被 研究 得 较 多 ， 下 面 我 们 将 
侧重 介绍 这 两 个 部 分 的 内 容 。 
[1] G Adomavicius, A Tuzhilin.Context-aware recommender systems [EB/OL] . 


[2] Q Liu, H Ma, et al.A survey of context-aware mobile recommendations [J] .International Journal of Information Technology&Decision 


Making, 2013, 12 (01) : 139-172. 


5.4.1 ”时 间 感 0 的 地 点 推荐 


在 时 间 感 知 的 地 点 推荐 系统 中 ， 时 间 就 是 情境 信息 。 当 在 推荐 系统 中 考虑 时 间 时 ， 通 常 认为 用 户 的 兴趣 是 随时 间 的 变化 而 发 
生变 化 的 ， 即 用 户 在 不 同时 间 的 隐 向 量 应 该 是 不 尽 相 同 的 。 为 此 ， 时 间 感 知 的 推荐 系统 的 其 中 一 种 方法 是 假设 用 户 的 隐 向 量 是 时 
间 的 函数 ， 会 随时 间 的 变化 而 发 生变 化 。 特 别 地 ， 假 设 用 户 u 在 t 到 t+ 8t 的 时 间 范 围 内 的 隐 向 量 为 pu t， 那 么 可 通过 如 下 的 最 优 
化 方法 来 进行 参数 学 习 


min >) |W,©(R,— PQ") 2) (5.41) 
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UP, 1,12 t=1 


r+ yCIP. le + IQ 


其 中 Rt 和 Wit 表 示 在 t 到 t+ 6t 的 时 间 范 围 内 的 评分 和 矩阵， 并 且 假 设 有 T 个 时 间 区 间 。 实 际 的 算法 实现 时 ,一 般 可 以 假设 
6t=1hour 且 T=24。 也 就 是 说 ， 只 考虑 一 天 以 内 的 以 小 时 为 单位 的 动态 变化 。 或 者 还 会 区 分 工作 日 和 非 工 作 日 的 兴趣 差异 性 。 对 
这 个 目标 函数 进行 分 析 ， 可 以 发 现 它 是 T 个 矩阵 芒 :的 共同 矩阵 分 解 ， 分 解 时 会 共享 地 点 的 隐 向 量 信息 。 不 过 根据 已 有 的 研究 
可 以 发 现 ， 这 种 将 矩阵 按时 间 切 分 的 方法 会 面临 更 严峻 的 稀 玻 性 挑战 。 为 此 ， 很 多 研究 工作 提出 了 各 种 各 样 的 解决 方案 。 比 如 在 


束 。 可 以 证 明 这 种 方法 和 多 任务 约束 中 是 等 价 的 ， 即 在 目标 函数 公式 (5.41) 中 添加 最 为 常见 的 多 任务 约束 项 zi 1227 t 
是 说 ， 每 个 人 的 时 间 相 关 的 隐 向 量 项 应 该 和 其 平均 值 相差 不 大 ; 或 者 说 ,每 个 人 的 时 间 相 关 的 隐 向 量 应 该 在 不 同 的 时 间 段 内 没有 


很 大 的 差别 。 再 比如 在 参考 文献 [29] 中 ， 约 束 每 个 用 户 在 相 邻 时 间 上 的 隐 向 量具 有 一 定 的 相似 性 。 特 别 地 ， 考 虑 如 下 的 正则 
化 项 


; 
A>) tr((P, — P, 07 Z CP, — P. ) (5. 42) 


t=1 


XdRASUfabt, AR LAUT UBM BOTERMASOR [t, t+5t) 和 [t+St, t«26t) 上 的 相似 性 。 这 里 需要 注意 的 
是 : Po=PT， 也 就 是 说 这 种 相似 性 具有 循环 特性 或 是 周期 特性 。 比 如 说 ， 如 果 以 一 天 中 的 小 时 为 单位 进行 时 间 划 分 的 话 ， 那 么 
[0，1) 是 第 1 个 时 间 段 ， [23，24) 是 第 24 个 时 间 段 ， 第 0 个 时 间 段 和 第 24 个 时 间 段 就 是 一 样 的 。 因 此 ， 第 24 个 时 间 段 和 第 23 
个 、 第 1 个 时 间 段 的 相似 性 是 一 样 的 。 

除了 这 两 种 方法 以 外 ， 另 外 一 种 解决 稀 玻 性 的 方案 是 张 量 秩 分 解 。 张 量 是 矩阵 的 推广 ， 三 阶 张 量 就 是 一 个 长 方 体 。 张 量 的 秩 
分 解 是 矩阵 奇异 值 分 解 的 推广 ， 是 高 阶 奇异 值 分 解 的 特殊 情形 ， 如 图 5.5 所 示 。 在 图 5.5 中 ， 张 量 R 被 分 解 成 一 个 核 张 量 $ 和 三 个 因 
子 矩 阵 P，C，Q 的 张 量 积 ， 即 R=Sx1Px2Cx3Q。 张 量 模 -1 积 3-S xz 满足 77777, Ree 


7 当 核 张 量 为 正方 体 而 且 为 对 角形 式 时 ， 就 对 应 到 张 量 秩 分 解 。 


图 5.5 ”高 阶 奇 异 值 分 解 R=SX1PX2CX3Q 的 图 示 


张 量 秩 分 解 实际 上 将 张 量 中 的 每 一 维 投影 到 同一 个 隐 性 空间 之 中 。 在 时 间 感 知 的 地 点 推荐 中 ， 张 量 就 是 用 户 时间 地 点 的 长 方 
体 ， 它 的 秩 分 解 将 用 户 、 时 间 段 、 和 地 点 分 别 通过 和 矩 阵 P、 和 矩阵 C 及 和 矩阵 Q 同 时 映射 到 同一 个 隐 性 空间 ， 使 得 用 户 u 在 t 到 t+ et 时 
间 范 围 内 对 地 点 i 的 偏好 估计 为 “”””“““。 这 种 向 低 续 空间 映射 的 好 处 在 于 ， 可 以 发 现 潜在 相关 性 ， 从 而 自动 地 发 现 可 能 相 
似 的 时 间 段 。 从 另外 一 个 角度 来 看 ， 用 户 u 在 t 肥 Jt+6t 时 间 范 围 内 的 兴趣 隐 向 量 是 用 户 隐 向 量 和 时 间 段 隐 向 量 的 Hadamard 积 ， 
BPP aie D Ducis, VEE Ts 天 使 得 t 与 u 的 关系 被 解 耦合 。 这 和 参考 文献 [98] 中 利用 对 “交互 特征 ”的 权重 做 低 秩 假设 
类 似 ， 能 起 到 缓解 稀 琉 性 问题 的 作用 。 解 释 了 张 量 秩 分 解 能 够 解决 稀 跑 问题 的 原因 之 后 ， 继 续 来 介绍 如 何 学 习 用 户 、 时 间 、 地 点 
各 自 的 在 低 秩 空 间 中 的 隐 向 量 表示 。 特 别 地 ， 可 通过 最 小 化 如 下 的 目标 水 数 来 实现 参数 学 习 


min >) Wuni (Tani m S Duabus ) + AC | P | A + | C|| F = loll F) 
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(5. 43) 


Erpry, c, 王 示 用 户 u 在 t 到 t+ 6t 的 时 间 段 内 是 否 访 问 过 地 点 i， 而 Wu, t, 于 示 相应 的 置信 和 度 。 和 置信 和 度 的 设置 方法 和 前 面 加 权 
和 矩阵 分 解 中 的 方法 类 似 。 特 别 地 ， 如 果 用 户 u 在 t 到 t+ 56t 的 时 间 段 内 去 过 地 点 i 但 没有 去 过 ， 即 若 ry,t, >u, t, j， 那 么 wu, t, 会 


显著 大 于 wu t, je 


针对 这 个 目标 函数 的 优化 ， 与 地 理 建 模 和 协同 过 滤 的 联合 模型 中 的 优化 方法 类 似 ， 可 利用 交 共 和 迭代 优化 方法 。 特 别 的 ， 在 固 
定 参 数 C 和 Q 的 情况 下 ,， 令 目标 函数 天 于 和 矩 阵 P 中 的 每 一 行 pu 的 梯度 为 零 ， 便 可 以 求 得 天 于 pu 的 更 新 公式 


D. 一 ( > wari Ce, P qi) Cc, : qi)! + AI x ) ( X, Wati uti (C * qi) 


(5. 44) 


Bich Ve 0 是 可 以 进行 快速 计算 的 ， 因 为 77 Doa oa)" 1 (CO - Q'O .这 里 注意 Hadamard 积 满足 下 列 
的 三 条 性 质 : OC oea - 6e) aaO (A+B) °C=A°C+B°C; GA?B-B^A, 同样 ， 在 固定 其 他 参数 的 情况 下 ， 分 别 令 
标 函数 关于 和 矩阵 C 中 的 每 一 行 ct 及 矩阵 Q 中 每 一 行 q 揭 梯度 为 零 ， 便 可 以 求 得 ct 和 q 和 的 更 新 公式 。 


需要 注意 的 是 这 里 虽然 只 给 出 了 加 权 张 量 分 解 ， 但 是 这 种 框架 是 很 通用 的 。 很 多 先前 工作 就 是 将 其 中 的 加 权 均 方 误差 目标 函 
数 蔡 换 为 其 他 的 目标 浮 数 。 比 如 说 ， 基 于 加 权 序 对 分 类 误差 ， 参考 文献 [152, 56] 等 人 研究 了 时 间 感 知 的 推荐 模型 。 而 且 由 于 
是 地 点 推荐 ， 这 些 模 型 已 经 进一步 地 结合 了 地 理 信息 建 模 。 有 兴趣 的 读者 可 以 进一步 地 进行 阅读 。 


[1] T Evgeniou, M Pontil.Regulatized multi-task learning [C] .In Proceedings of KDD’ 04, ACM, 2004. 


5.4.2 序列 化 地 点 推荐 


序列 化 地 点 推荐 是 给 定 当前 位 置 ， 针 对 下 一 个 可 以 开展 活动 的 地 点 进行 推荐 。 这 种 序列 化 的 推荐 在 实际 应 用 场景 中 更 加 贴切 
实际 。 比 如 说 ， 一 个 人 带 了 一 群 朋友 来 某 个 餐馆 吃饭 ， 吃 过 饭 之 后 ， 他 们 打算 安排 一 些 其 他 的 娱乐 活动 。 那 么 这 个 时 候 推荐 应 该 
根据 当前 位 置 及 当前 活动 来 进行 推断 ， 至 少 不 能 再 继续 向 他 们 推荐 餐馆 了 ， 也 不 能 离 当前 位 置 过 远 。 针 对 此 类 场景 ， 已 经 有 很 多 
的 研究 被 开展 开 来 [1 外 中 多 I。 这 些 研究 背后 的 思想 是 将 用 户 当前 地 点 下 一 个 地 点 形成 一 个 三 阶 的 张 量 ， 之 后 再 进行 张 量 分 解 。 
在 技术 上 ,与 5.4.1 节 关于 时 间 感 知 的 地 点 推荐 类 似 ， 这 里 便 不 再 做 进一步 的 介绍 ， 有 兴趣 的 读者 可 以 阅读 这 里 提供 的 相关 文 
献 。 
[1] C Cheng, H Yang, MR Lyu, I King. Where you like to go next: successive point-of-interest recommendation [C] .In Proceedings of 
IJCAI' 13, AAAI Press, 2013. 
[2] S Zhao, T Zhao, et al.Stellar: Spatial-temporal latent ranking for successive point-of-interest recommendation [C] .In Proceedings of 
AAAI' 16, 2016. 
[3] J Sang, T Mei, etal.Probabilistic sequential pois recommendation via check-in data [C] .In Proceedings of GIS’ 12, ACM, 2012. 
[4] X Liu, Y Liu, et al.Personalized point-of-interest recom-mendation by mining users’ preference transition [C] .In Proceedings of 
CIKM’ 13, ACM, 2013. 
[5] J He, X Li, L Liao, et al. Inferring a personalized next point-of-interest recommendation model with latent behavior patterns [C] .In 


Proceedings of AAAI' 16, 2016. 


5.5 ”地 点 推荐 系统 的 评价 


在 介绍 上 述 算法 的 动机 时 ， 常 常 说 到 如 何 提升 推荐 的 性 能 。 那 么 究竟 什么 是 地 点 推荐 的 性 能 呢 ? 应 该 如 何 评 价 地 点 推荐 算法 
的 好 坏 呢 ?由 于 我 们 没有 实际 的 系统 支撑 ， 无 法 在 线 验 证 算法 的 好 坏 。 目 前 的 方案 基本 上 都 是 基于 历史 数据 来 评价 的 。 特 别 地 ， 
一 般 将 移动 历史 数据 按照 时 间 进 行 切 分 ， 将 某 个 时 间 之 前 的 所 有 历史 数据 作为 训 | 练 集 ， 训 练 地 点 推荐 的 算法 。 将 该 时 间 之 后 的 历 
史 数 据 作为 测试 集 ， 测 试 算法 的 性 能 。 这 种 评价 模式 也 是 符合 实际 的 。 在 很 多 文献 中 ， 也 有 一 些 工作 是 基于 现 有 机 器 学 习 系统 的 
评价 方法 ， 将 数据 进行 随机 切 分 然后 进行 交叉 验证 。 这 一 部 分 完全 可 以 参考 机 器 学 习 或 数据 挖掘 的 相关 图 书 [1]。 推 荐 算法 的 性 能 
一 般 是 先 通 过 给 用 户 (可 能 是 在 具体 情境 下 ) 推荐 候选 的 物品 ， 然 后 统计 有 多 少 测试 集中 的 物品 被 找 回 ， 具体 的 指标 包括 召回 率 

(recall) 、 精 度 (precision) 、MAP、AUC、NDCG、 百 分 位 排序 (percentage ranking) ， 等 等 。 召 回 率 和 精度 是 两 个 在 
之 前 工作 中 被 使 用 得 比较 多 的 指标 。 以 地 点 推荐 来 说 ， 考 虑 向 每 个 用 户 推 荐 k 个 地 点 ， 那 么 精度 就 是 指 前 k 个 被 推荐 的 地 点 会 包 
括 多 少 比例 的 该 用 户 在 测试 集中 的 访问 地 点 ; 召回 率 得 指 用 户 在 测试 集中 的 访问 地 点 有 多 少 比例 在 前 k 个 被 推荐 的 地 点 中 出 现 。 
从 形式 上 说 ,定义 Su (k) 为 前 k 个 被 推荐 的 兴趣 地 点 而 Vu 是 用 户 u (可 能 是 在 具体 情境 下 ) 的 访问 地 点 ， 那 么 M 个 用 户 指标 的 平 
均 召 回 率 和 精度 就 定义 为 
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可 以 看 到 ， 召 回 率 和 精度 在 推荐 算法 评价 中 是 与 推荐 地 点 数目 相关 的 。 推 荐 地 点 越 多 ， 召 回 率 越 高 ， 精 度 越 低 。 因 而 这 些 指 
标 在 衡量 TopK 的 推荐 性 能 中 具有 重要 意义 。 类 似 的 指标 还 有 MAP 和 NDCG 等 ， 关 于 这 两 个 指标 的 具体 含义 这 里 不 做 过 多 介绍 ， 
有 兴趣 的 读者 可 以 参照 参考 文献 [80] ， 但 是 这 两 个 指标 在 衡量 TopK 推 荐 性 能 中 会 比 召 回 率 和 精度 的 作用 更 大 ， 因 为 他 们 会 考 
虑 推荐 列表 中 每 个 地 点 出 现 的 位 置 。 用 户 的 访问 地 点 在 推荐 列表 中 越 靠 前 ， 那 么 MAP 和 NDCG 就 越 高 。 


[1] J Han, J Pei, M Kamber.Data mining: concepts and techniques [M] .Nether-lands: Elsevier, 2011. 


第 6 草 ”结语 


本 书 围绕 移动 数据 ， 从 数据 预 处 理 、 移 动 建 模 与 预测 、 移 动用 户 画 像 和 地 点 推荐 四 个 方面 介绍 了 数据 挖掘 的 相关 内 容 。 在 数 
据 预 处 理 部 分 ， 重 点 介绍 了 缺失 数据 补 全 、 重 要 地 点 检测 、 语 义 信息 标注 等 内 容 ， 并 基于 具体 的 移动 数据 展开 介绍 。 在 移动 建 模 
与 预测 方面 ， 从 人 类 动力 学 模型 和 数据 驱动 的 模型 两 方面 分 别 进行 了 前 述 ， 介 绍 了 该 方面 的 最 新 进展 研究 。 在 移动 用 户 画像 中 ， 
对 用 户 的 画像 从 隐 性 属性 和 显 性 属性 两 个 方面 来 进行 刻画 ， 并 分 别针 对 相应 的 属性 预测 方法 在 移动 数据 上 进行 介绍 。 最 后 的 地 点 
推荐 梳理 了 近年 来 的 发 展 历 程 ， 从 基于 内 容 的 过 滤 算 法 ， 到 协同 过 滤 及 它们 的 混合 模型 ， 再 到 情境 感知 的 协同 过 滤 。 


移动 数据 挖掘 的 发 展 和 如 下 一 些 主题 密切 相关 。 第 一 ， 利 用 诸如 RNN 等 更 复杂 的 模型 并 结合 位 置信 息 、 社 交 了 网 络 信息 等 进 
行 移动 建 模 和 预测 ， 或 者 地 点 的 推荐 ; 第 二 ， 利 用 更 多 诸如 用 语音 、 图 片 等 的 多 源 异 构 的 数据 进行 移动 数据 挖掘 的 研究 ; 第 三 ， 


数据 流 技术 在 移动 建 模 与 预测 的 应 用 ， 因 为 移动 数据 本 身 就 是 典型 的 流 数 据 ， 而 目前 的 研究 更 多 的 还 是 局 限于 离线 挖掘 分 析 之 
中 ; 第 四 ， 大 规模 地 点 推荐 研究 。 由 于 拥有 物理 位 置 ， 人 们 的 移动 规律 有 着 特殊 的 层次 结构 ， 如 何 利用 这 种 层次 结构 设计 大 规模 
的 地 点 推荐 研究 将 是 非常 有 趣 的 研究 ; 最 后 ， 数 据 挖掘 的 其 他 技术 在 移动 数据 中 的 应 用 ， 比 如 异常 移动 行为 检测 、 轨 迹 压缩 ， 等 


ae 
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围绕 移动 数据 介绍 数据 挖掘 的 内 容 只 是 “移动 数据 挖掘” 的 一 种 合 义 。 除 此 以 外 ， 还 有 “移动 的 数据 挖掘 ”的 另外 一 层 含 
义 ， 这 种 类 型 的 数据 挖掘 会 涉及 手机 应 用 推荐 、 基 于 手机 传感器 数据 的 行为 识别 、 手 机 的 操作 行为 分 析 ， 等 等 。 也 就 是 说 ， 这 部 
分 的 数据 挖掘 主要 与 手机 有 关 ， 与 人 们 的 移动 天 系 较 小 。 因 而 ， 这 一 部 分 的 内 容 在 该 书 中 基本 没有 涉及 。 未 来 我 们 可 以 根据 具体 
情况 来 添加 这 部 分 的 内 容 。 
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